找回密码
 加入怎通
查看: 709|回复: 5

[站长八卦] 百度蜘蛛的抓取痕迹

[复制链接]
会更好 发表于 2012-07-09 21:10:39 | 显示全部楼层 |阅读模式
: m7 G* ?& P* z1 C0 ?: R
这篇文章主要讲解搜索引擎的蜘蛛爬虫的工作原理,包括它的四种抓取策略。5 W! s+ z1 Q0 e6 j; }; S& {
, g) y$ j! ^+ p$ ]: y! n0 a% @+ f
首先呢,搜索引擎的蜘蛛抓取网页是有着一定的规律,不会去随便抓取网页,并且呢,蜘蛛是通过超连接来抓取网页的,我们刚刚说了,搜索引擎有四种抓取网页的策略,www.88msc.com下边我们一一讲解。
; D5 g, z1 p; Z) f+ q+ c" W- h, C9 V' A' S1 E- b: d3 n
深度优先0 ?: J# e2 s% ^4 ~  w2 p

6 F: o. }( Z  Q. i$ z1 T所谓深度优先,就是蜘蛛在一个页面中发现第一个超链接,然后爬取这个页面,当爬到第二个页面后,在第二个页面发现的第一个超链接,然后再顺着往下爬,如下图:
* o/ k) o; _2 m2 _  O0 p5 z, }* b! A' [* j* R% y- K
/ ]+ Y) Q% S5 q* V

9 {; I2 |: p, y0 s5 c3 u; H深度优先,导致蜘蛛抓取的网页的质量,越来越低,并且在传递网站权重上,也有着根本的问题。1 q# j( |+ H+ m# }% \
, \8 w- B$ p. a8 r! r
宽度优先5 u5 F( K& T0 _  W
5 M1 b% M0 `7 s9 v# I3 h1 [8 f
在深度优先上,搜索引擎有着根本的问题,那么在之后,搜索引擎又推出了蜘蛛抓取的第二个策略,也就是宽度优先,宽度优先指的是,蜘蛛会先把这个页面所有的链接都爬一次,然后在顺着这些链接往下爬,如下图:2 s6 f  [% d+ T( M9 F& k

8 j) b* B- ~' z+ j( ]* m7 H
6 ^4 R: G9 p7 g" {1 }* Y/ e! ~; z% o6 v) x- y5 x4 _
但是宽度优先也存在着问题,那就是蜘蛛抓取的效率和质量问题。; e' u+ O; h. j5 J
' }6 d: D/ t& |
先宽后深 – 权重优先7 ?$ O2 E( G( A# Y" S
4 ^. q" S" ^, A# Z2 A$ |
现在搜索引擎是宽度和深度优先的结合,蜘蛛在抓取一个网页的时候,会先把这个页面所有的链接都抓取一次,然后再根据这些ULR的权重来判定,那个URL的权重高,那么就采用深度优先,那个URL权重低,就采用宽度优先或者不抓取。
+ P7 v) M* C1 i( |$ j, S
5 v; R2 A9 L6 |% j0 U重访抓取策略
' L, x, p! C7 H( |0 c. G( a; z3 E* D0 ]+ Q* B
重访抓取策略,是最后的一个,搜索引擎蜘蛛在抓取完这个网页之后,然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定,那么对于权重高的页面,蜘蛛会在相隔较短的时间段在回来重新抓取,比如新浪网,权重很高,搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重较低的页面,比如长期不更新的页面,那么蜘蛛会隔好长时间在来抓取一次,比如我们常常搜索的百度大更新,蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取,一般情况,百度大更新,一个月一次。6 [0 _. b# b: A3 L
7 u* K/ {- J6 b, H8 j$ l/ c' {
回复

使用道具 举报

qingaiyijiu 发表于 2025-11-09 23:18:54 | 显示全部楼层
蹲了这么久,终于看到有价值的讨论,支持一下!
回复 支持 反对

使用道具 举报

Kevin 发表于 2025-11-11 06:33:56 | 显示全部楼层
说得很实在,没有夸大其词,这种真实分享太难得了
回复 支持 反对

使用道具 举报

鸿股堂 发表于 2026-02-10 20:43:55 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

asd25257758 发表于 2026-02-13 04:12:33 | 显示全部楼层
楼主辛苦了,整理这么多内容,必须点赞收藏
回复 支持 反对

使用道具 举报

chinaqunying 发表于 2026-03-04 06:16:33 | 显示全部楼层
刚好遇到类似问题,看完这个帖子心里有底了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-5-8 20:27 , Processed in 0.056735 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表