网页收录第一阶段:大小通吃
1 G/ J8 ]! O! g% H9 E; Q4 D
2 S) \6 q) @+ p6 k9 B, [ 搜索引擎的网页抓取都是采取大小通吃的策略,也就是把网页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然比较古老,但效果很好,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的原因,这仅仅是第一阶段。 q1 v6 G3 {3 U" v& J x) [
. d, m* \9 o' T+ @( g" V& s
网页收录第二阶段:网页评级$ z. Y/ U( u& J0 A
- q, T( V$ w) y4 [& E
而第二阶段则是对网页的重要性进行评级,PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序,这就是发外链的一种形式,据一位朋友了解,在中国发外链这个市场每年有上亿元的规模。' U6 b, Z" `, }
# [, ?2 ]( n3 o L- ~ z
蜘蛛爬虫的目的就是去下载网页,但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。
3 p& z3 ?: U# ?1 c7 X2 ~) N7 j: B/ P8 w* y3 B8 T
网页收录第三阶段:OCIP策略: _) o3 Y1 q$ Z, x+ n
2 j& V* V# i7 y1 k3 ?0 }6 q OCIP策略更像是PageRank算法的改进。在算法开始之前,每个网页都给予相同的现金,每当下载某个页面A后,A将自己的现金平均分给页面中包含的链接页面,把自己的现金清空。这就是为什么导出的链接越少,权重会越高的原因之一。( j! I1 ]% H. }2 T0 u% V
. {, C: k h2 \. a- A 而对于待抓取的网页,会根据手头拥有的现金多少排序,优先下载现金最充裕的网页,OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多网页会出现秒收的情况了。$ J9 a: [, ^! |6 n
( @- n2 O7 t N. M, F& U" a; A 网页收录第四阶段:大站优先策略" g+ }: o& e6 S6 _, y- C; Q
+ d8 `' ]$ R0 x8 ? 大站优先的思路很直接,以网站为单位来衡量网页的重要性,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。其本质思想是倾向于优先下载大型网站URL。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站,其网页质量一般较高,所以这个思路虽然简单,但有一定依据。5 e: A ~4 Y" |
" r" Z- K% X5 m3 W" | 实验表明这个算法虽然简单,但却能收录高质量网页,很有效果。这也是为什么许多网站的内容被转载后,大站却能排到你前面的最重要原因之一。
$ w5 j3 [7 h! G6 R* f6 ]; `* \
% H( s& W) a4 b$ h' @本文来自: 数据时代(www.sjera.com) 倩倩分享,详细出处参考:http://www.sjera.com/webopt/opt_art860.html) G/ J4 X9 ^" a" H+ ` b
|