' a7 U; J8 e% R
这篇文章主要讲解搜索引擎的蜘蛛爬虫的工作原理,包括它的四种抓取策略。7 K* T! m/ J/ S! `9 g! G0 k9 j
" ~& s8 W# Y; ?; l; Q( `5 P
首先呢,搜索引擎的蜘蛛抓取网页是有着一定的规律,不会去随便抓取网页,并且呢,蜘蛛是通过超连接来抓取网页的,我们刚刚说了,搜索引擎有四种抓取网页的策略,www.88msc.com下边我们一一讲解。- S: ^- a# U& |2 v; i4 n
/ d" l! `9 J+ Y7 T深度优先
# e ?* Q4 N% V
" S! |1 @& j) _/ p所谓深度优先,就是蜘蛛在一个页面中发现第一个超链接,然后爬取这个页面,当爬到第二个页面后,在第二个页面发现的第一个超链接,然后再顺着往下爬,如下图:
: z" r( `" @, R- |. f
# Y# o& u& ^! @+ [4 L. {) m- b$ H" w+ m1 y
, Y6 o3 Q9 a! L: N* Y深度优先,导致蜘蛛抓取的网页的质量,越来越低,并且在传递网站权重上,也有着根本的问题。0 z5 g/ l, v: f) d% [! X
8 C' X* M8 a! `' F! a宽度优先1 Y. n$ F* E" \; F( f0 O0 [% x
% Q7 a3 S0 Q: s在深度优先上,搜索引擎有着根本的问题,那么在之后,搜索引擎又推出了蜘蛛抓取的第二个策略,也就是宽度优先,宽度优先指的是,蜘蛛会先把这个页面所有的链接都爬一次,然后在顺着这些链接往下爬,如下图:5 V: [; ^" b2 G2 i
/ \ p$ \; J% u0 t! L
. s" y, I( f3 N/ c( R2 `8 @ U6 D6 a0 W9 R0 _
但是宽度优先也存在着问题,那就是蜘蛛抓取的效率和质量问题。
- ]6 r- Q( J) i+ H |5 b2 E0 F6 P8 h) u6 ]6 n j2 a
先宽后深 – 权重优先
& _( ?& r- f! k6 ~6 A* Q2 E" g* ?0 x1 L* T8 X
现在搜索引擎是宽度和深度优先的结合,蜘蛛在抓取一个网页的时候,会先把这个页面所有的链接都抓取一次,然后再根据这些ULR的权重来判定,那个URL的权重高,那么就采用深度优先,那个URL权重低,就采用宽度优先或者不抓取。" N- w6 w; @: t" K7 W, R7 j
) u7 M5 ~( k( b- e: S5 N# T) |重访抓取策略
/ E7 h% {2 J% W; w* Z2 x
( ]9 P# H Z4 n! J& G2 C4 ], u& p重访抓取策略,是最后的一个,搜索引擎蜘蛛在抓取完这个网页之后,然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定,那么对于权重高的页面,蜘蛛会在相隔较短的时间段在回来重新抓取,比如新浪网,权重很高,搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重较低的页面,比如长期不更新的页面,那么蜘蛛会隔好长时间在来抓取一次,比如我们常常搜索的百度大更新,蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取,一般情况,百度大更新,一个月一次。
: Q5 M! U' i- N( Y" M: I2 Y" y! y' _) Z9 k" O7 {/ h
|