7 }. ^& O) c9 O: `& Y. S: O0 o
这篇文章主要讲解搜索引擎的蜘蛛爬虫的工作原理,包括它的四种抓取策略。1 F1 |6 ~/ I( T8 I5 T: \$ ?
n9 a- g, e o8 x' H5 L3 s
首先呢,搜索引擎的蜘蛛抓取网页是有着一定的规律,不会去随便抓取网页,并且呢,蜘蛛是通过超连接来抓取网页的,我们刚刚说了,搜索引擎有四种抓取网页的策略,www.88msc.com下边我们一一讲解。
3 n. D/ @1 z# T6 }$ i' E3 \% w: [0 q2 S- V7 c
深度优先
" U& |" A' P2 y7 L; I6 n& B5 `! ]
( k% |2 `. w) q; u6 X5 n所谓深度优先,就是蜘蛛在一个页面中发现第一个超链接,然后爬取这个页面,当爬到第二个页面后,在第二个页面发现的第一个超链接,然后再顺着往下爬,如下图:
' k; D# c8 n; @* V, B) _2 K& ]3 H3 S6 g7 K% j; {% u" `
9 m) T8 \! ]3 D) p+ l1 U2 Z" z! e# P p4 _5 N4 c
深度优先,导致蜘蛛抓取的网页的质量,越来越低,并且在传递网站权重上,也有着根本的问题。
& J# O( A7 `1 W/ ~0 q
k/ ^, z9 W, ~( I9 W# {宽度优先0 f! p- b( {' q, H
3 x4 [ F* Z$ f% ?' M; m; n
在深度优先上,搜索引擎有着根本的问题,那么在之后,搜索引擎又推出了蜘蛛抓取的第二个策略,也就是宽度优先,宽度优先指的是,蜘蛛会先把这个页面所有的链接都爬一次,然后在顺着这些链接往下爬,如下图:3 R' S% s7 x; G# |3 a
5 U7 W( U- Q7 @- k3 R
4 {! A, [( v b% ^% @' ?
/ z. J! Y7 n2 ^* e" i: ~但是宽度优先也存在着问题,那就是蜘蛛抓取的效率和质量问题。0 ~2 G9 X& ], i4 u3 P0 A! l
, X, x% f9 S7 e* E5 A B先宽后深 – 权重优先
" X& A$ |% L( p! a, X
% D! P) a3 Z$ j$ ?3 c `# J% \现在搜索引擎是宽度和深度优先的结合,蜘蛛在抓取一个网页的时候,会先把这个页面所有的链接都抓取一次,然后再根据这些ULR的权重来判定,那个URL的权重高,那么就采用深度优先,那个URL权重低,就采用宽度优先或者不抓取。
3 H& S4 x% w' o! I
5 i& j/ @1 y: d' y& C, T重访抓取策略( T! |) `# c/ ~ `, x
/ s, B( P& H% J& M重访抓取策略,是最后的一个,搜索引擎蜘蛛在抓取完这个网页之后,然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定,那么对于权重高的页面,蜘蛛会在相隔较短的时间段在回来重新抓取,比如新浪网,权重很高,搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重较低的页面,比如长期不更新的页面,那么蜘蛛会隔好长时间在来抓取一次,比如我们常常搜索的百度大更新,蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取,一般情况,百度大更新,一个月一次。
$ H7 R/ f9 } A7 a9 u
4 t& a- i5 M' F: { |