. ~, D+ E# }+ U; S+ t1 @ 这篇文章主要讲解搜索引擎的蜘蛛爬虫的工作原理,包括它的四种抓取策略。
# D4 Q; Y2 \+ ~2 m6 T6 N$ K" Y, _5 |: }9 o
首先呢,搜索引擎的蜘蛛抓取网页是有着一定的规律,不会去随便抓取网页,并且呢,蜘蛛是通过超连接来抓取网页的,我们刚刚说了,搜索引擎有四种抓取网页的策略,www.88msc.com下边我们一一讲解。
7 L1 L: \7 S) J5 k& L& d6 C
2 c$ f; N) w0 q# n深度优先0 O K- _, v( h" a: T9 a" r/ e% o
' r, E" m" g; ^* E
所谓深度优先,就是蜘蛛在一个页面中发现第一个超链接,然后爬取这个页面,当爬到第二个页面后,在第二个页面发现的第一个超链接,然后再顺着往下爬,如下图:: ^* {7 S2 f7 o# g% `* [" x9 j
q1 O+ P- h/ g8 Z5 ^; f% E+ w9 O! ~, z7 _! y) E
|4 R9 m# \) c. x, k$ J
深度优先,导致蜘蛛抓取的网页的质量,越来越低,并且在传递网站权重上,也有着根本的问题。. Y" j5 ?* a6 ?3 S
6 u @; d( O4 |7 w宽度优先
j3 R4 |9 J" q9 G! O2 P* s) s# q7 N+ m' [# W0 f
在深度优先上,搜索引擎有着根本的问题,那么在之后,搜索引擎又推出了蜘蛛抓取的第二个策略,也就是宽度优先,宽度优先指的是,蜘蛛会先把这个页面所有的链接都爬一次,然后在顺着这些链接往下爬,如下图:
; [$ l C% g, w+ B* L C" Y6 Q
& M N' v |$ n' L4 L5 a
2 |2 v( `1 L8 f( y7 T; _
y! e( a6 t1 }9 R) x3 Q但是宽度优先也存在着问题,那就是蜘蛛抓取的效率和质量问题。; N, r w6 G- S& t- a. ? p! o
2 b, S6 r- ^/ z' V+ N# d- h! i$ H! x先宽后深 – 权重优先, Q/ W8 h+ p7 D; Q( @; M3 y# q, J% Q
. v( I! t, y! e% K5 P
现在搜索引擎是宽度和深度优先的结合,蜘蛛在抓取一个网页的时候,会先把这个页面所有的链接都抓取一次,然后再根据这些ULR的权重来判定,那个URL的权重高,那么就采用深度优先,那个URL权重低,就采用宽度优先或者不抓取。9 Y3 b( H9 s) O6 \7 c
; f2 j0 ~2 D C4 X) z
重访抓取策略: k& ~3 x) L9 g; t8 n$ v
, F5 s8 T# x9 N" m0 n! ]/ s重访抓取策略,是最后的一个,搜索引擎蜘蛛在抓取完这个网页之后,然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定,那么对于权重高的页面,蜘蛛会在相隔较短的时间段在回来重新抓取,比如新浪网,权重很高,搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重较低的页面,比如长期不更新的页面,那么蜘蛛会隔好长时间在来抓取一次,比如我们常常搜索的百度大更新,蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取,一般情况,百度大更新,一个月一次。, _; o, O3 J/ B8 N4 J
* i* C- D4 c* ~& n, t a9 K
|