9 w6 ~6 V" a6 f 这篇文章主要讲解搜索引擎的蜘蛛爬虫的工作原理,包括它的四种抓取策略。
/ e, Y! N8 [6 f9 A
. L% C/ \3 _( @$ }% \7 s首先呢,搜索引擎的蜘蛛抓取网页是有着一定的规律,不会去随便抓取网页,并且呢,蜘蛛是通过超连接来抓取网页的,我们刚刚说了,搜索引擎有四种抓取网页的策略,www.88msc.com下边我们一一讲解。9 J. a* |0 b* a1 V
, ^1 ~+ g. B8 O
深度优先
8 D" X2 s& ]8 ^- m" X# z
/ B; W' s. c) l ?$ j所谓深度优先,就是蜘蛛在一个页面中发现第一个超链接,然后爬取这个页面,当爬到第二个页面后,在第二个页面发现的第一个超链接,然后再顺着往下爬,如下图:
/ n$ y' y9 d7 q3 \4 c- u
- G% E7 q: L- z" n4 m, |
" D) M4 T8 I# F: k3 s d" M8 l6 | T$ R
深度优先,导致蜘蛛抓取的网页的质量,越来越低,并且在传递网站权重上,也有着根本的问题。
7 j3 Q2 v% c E; u% }/ E0 f* m
宽度优先
6 w: r- N$ J. x8 j. `' X6 L
! V# C5 ]- c5 c) H3 H" H: D6 Z在深度优先上,搜索引擎有着根本的问题,那么在之后,搜索引擎又推出了蜘蛛抓取的第二个策略,也就是宽度优先,宽度优先指的是,蜘蛛会先把这个页面所有的链接都爬一次,然后在顺着这些链接往下爬,如下图:
- X: J# X! U" |/ j' S6 t; ~* L6 h5 S- I! h- G) M. q' {6 g6 b
1 X$ e$ H3 r9 I$ q! z/ ?/ v) b
但是宽度优先也存在着问题,那就是蜘蛛抓取的效率和质量问题。 z# g Q; \3 V; }1 h# i. P' c7 q
" N R: w: f' O' V先宽后深 – 权重优先. P8 T# x/ X1 `8 Z1 I, S% G, a
8 [1 j I8 _& s2 p D现在搜索引擎是宽度和深度优先的结合,蜘蛛在抓取一个网页的时候,会先把这个页面所有的链接都抓取一次,然后再根据这些ULR的权重来判定,那个URL的权重高,那么就采用深度优先,那个URL权重低,就采用宽度优先或者不抓取。
5 w) \* a7 r; Y
0 l( Q$ q2 v( p重访抓取策略; n4 D: s3 l8 t) u3 E
/ R$ e' q* o3 _重访抓取策略,是最后的一个,搜索引擎蜘蛛在抓取完这个网页之后,然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定,那么对于权重高的页面,蜘蛛会在相隔较短的时间段在回来重新抓取,比如新浪网,权重很高,搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重较低的页面,比如长期不更新的页面,那么蜘蛛会隔好长时间在来抓取一次,比如我们常常搜索的百度大更新,蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取,一般情况,百度大更新,一个月一次。. I! c" Q6 y G4 W
1 [" ^' J; g* ^$ L, S- L |