实际上Page是Google产品和技术的灵魂。Google的PageRank算法就是由Page发明并且以他的名字命名的。现在,Page的重要性又一次被证明了。昨天,PAGE在一个会议上说:“我一直认为我们需要每秒都对互联网索引一次,以提供实时的搜索服务。最初,我们的团队笑话我,并不相信我。随着Twitter的成功,他们开始意识到我们必须提供实时搜索服务。是的,并非所有人都需要实时的搜索结果,但人们都会为这个功能本身而激动。”
我不知道是自己的脑袋出了问题,还是那个Google的创始人Page的脑袋出了问题,抑或是我们俩的脑袋全出了问题?否则我实在无法解释这种消息是怎么出现的。当然了,除了以上几种解释之外,还有一种可能性,那就是Google已经研究出了一种全新的“索引”方式,并且偷偷的准备实际应用。或许,这个可能性比较大吧。
最近我好像都和搜索引擎特别有缘,先是分析了Google与Twitter之争,然后关注了百度的阿拉丁云,接着试用了一个Google杀手WolframAlpha。今天,终于又绕回到Google来了。我觉得照这样的趋势让右边的标签云继续发展下去,我迟早变成G粉。
还是回到正题吧。
显然,Page此番发现,正应了我前段时间的疑惑,那就是Google究竟要用何种方式来与Twitter竞争。Google果然不愧为Google,使用的方法都这么的强大,那就是每秒钟搜索一次互联网,让自己的搜索引擎变成即时的,这样一来,同样是即时搜索,Twitter就没有任何优势可言了。真是高明啊,高明极了。
假设本文一开始的那最后一种猜测是真的的话,那就是说Google将会使用这种新的索引方式来代替旧有的古老的搜索引擎索引方式了。那么,在此之前,Google现在用的是什么样的方式在索引互联网呢?
这里是来自互动百科的内容——
抓取网页
每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。处理网页
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。
提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
不只是Google,现在所有的传统型搜索引擎,都在使用着相同的工作原理。关于搜索引擎的分类,请具体参见这篇文章。
如你所见,在这个步骤中,最重要的,就是搜索引擎派出的网页抓取程序,也就是蜘蛛机器人。只有抓取到了相关页面之后,搜索引擎才会对其进行下一步工作,比如索引和分类。
假如在基于现有方式的前提下,将传统搜索引擎变为即时的,有什么简单的方法吗?是的,或许你已经想到了。派出更多的机器人,更加疯狂的抓取每一个网页,然后在最短的时间内处理完毕。
前段时间,我在查看服务器访问日志的时候,发现总有一个IP段在不停的访问,并且消耗了相当巨大的流量,仅次于被迅雷盗链带来的流量。经过搜索之后才知道,原来,这个IP段是搜狗的蜘蛛。还好,本来从搜狗过来的人就很少了,于是毫不犹豫的屏蔽。
假如有一天Google真的这么做了,做到了每秒钟让蜘蛛来我的网站爬上一遍,那么我只有将其屏蔽。我觉得自己的服务器还无法承受的起这样的厚爱,比起那些Google带来的流量,显然无法访问才是更大的损失。
当然,这连我都能想到的事情,Google也不会脑残到去做这么白痴的事情。所以,让我们接着来研究一下,还有没有其他方法?
先来看一下Twitter吧,为什么他可以做到即时搜索?原因很简单,因为所有的数据,都在自己的服务器上,搜索的动作只要去查询一下数据库而已。无论搜索的再怎样频繁,只要在自身的服务器上做足功夫即可。显然,Google的数据库里,只有已经被索引过的“旧”数据,想要从这里得到什么借鉴是完全不可能的。
不过,既然数据库里已经有了先前的网页,那么在收录新内容的时候,只要差异抓取不就可以节省很多流量了吗。也就是说,只抓取修改过的以及新增的网页内容。但是,即使这样做了,仍然会带来极大的流量,而且或许他已经在这么做了。
当然还有其他方法。现在很多网站都采用RSS推送自己更新的内容,Google只要抓取这些更新,即可在最短的时间内更新索引。不过,这和他所说的美妙,还是有一定差距的。并且,他同样可能已经在这么做了。
是否还有其他方法?考虑到现在Google的浏览器Chrome的普及度,或许可以让使用这个浏览器的用户,将他所访问的网页内容发送给Google的服务器,也就是说每一个Chrome的用户都变成了Google的蜘蛛,这样就可以最大限度的将对网站的压力降到最低。不过,就算不提用户是否愿意这样,Chrome的普及率显然远无法让他将这一方法作为主攻。毕竟只有自己可以控制的东西才是最保险的,这在哪里都一样。
真的没有其他方法了吗?至少,我是想不到了。至少,在目前的这种“放出蜘蛛-蜘蛛爬过一个网站-抓取后发送-索引”的工作模式没有什么改变之前,每秒索引一次互联网实在近乎于天方夜谭。
希望Google,最终可以给我一些惊喜吧。。。




没想到好办法,先用笨办法顶上
可能的方法是在博客程序(如wp)等地方,如果这个网站有更新立即通知google:“我这里有更新”,然后机器人就浩浩荡荡的飞来了……
这确实是个好办法。不过搜索引擎面对的范围更大也更广泛,几万的网站同时发送的ping或许是一个不小的负担,所以主动出击对于google来说应该是更好的选择。现在他已经在部分的使用即时搜索了