作为搜索引擎的守护者,不得不对它的运行规律、工作原理、习性、优缺点做了解,同时也不是了解理论就可以,还需要不断地实践,通( v! O5 e1 U0 N
过实践得真理,通过实践得到经验。
& f: p' f" Q8 K% ]3 W 爬取网页回来分析,我们应该知道我们在百度进行搜索时,基本是以秒来获得结果的,在如此讯速的时间里得到自己想要的结果,可见搜3 l8 `, l0 L, K6 u" s" E; |8 G
索引擎是事先做好这部分工作的,如果不然,那么想想每次搜索将要花多少时间与精力,其实按照网与网的理解来说,可以分为三小部分:
9 I6 o" ]7 E' i+ z' a ^: m l. R 1、增量收集,爬取更新的网页,并删除掉重复的内容以及无效的链接。
4 Z- j: d* {' ?1 l 2、主动提交地址到搜索引擎,当然这种主动提交的方式被认为是审核期加长,这在部分seo资深人员看来是这样。
, R, N2 s7 W" i& q4 q0 Y3 a! y 3、批量抓取所有网页,这种技术的缺点是浪费带宽,时效性不高。& U; S0 U3 K& j0 ~% \+ D$ h; B
4、对于搜索引擎而言,如果重复爬取一些网页,不公浪费带宽,而且也不能增强时效性。所以搜索引擎需要一种技术来实现避免重复网页9 d y7 p, K5 A& ^; i
的出现。目前,搜索引擎可以用已访问列表以及未访问表来记录这个过程,这样极大的减少了搜索引擎的工作量。! _' b6 z' r+ G
本文内容是由手持喷码机 http://www.hzlansha.com/编辑整理,如需转载请标明出处
. H! S, K. \ L6 W5 y* U7 H( \ |