百度蜘蛛的抓取痕迹

会更好 · 发表于 2012-07-09 21:10:39

这篇文章主要讲解搜索引擎的蜘蛛爬虫的工作原理，包括它的四种抓取策略。

首先呢，搜索引擎的蜘蛛抓取网页是有着一定的规律，不会去随便抓取网页，并且呢，蜘蛛是通过超连接来抓取网页的，我们刚刚说了，搜索引擎有四种抓取网页的策略，www.88msc.com下边我们一一讲解。

深度优先

所谓深度优先，就是蜘蛛在一个页面中发现第一个超链接，然后爬取这个页面，当爬到第二个页面后，在第二个页面发现的第一个超链接，然后再顺着往下爬，如下图：

深度优先，导致蜘蛛抓取的网页的质量，越来越低，并且在传递网站权重上，也有着根本的问题。

宽度优先

在深度优先上，搜索引擎有着根本的问题，那么在之后，搜索引擎又推出了蜘蛛抓取的第二个策略，也就是宽度优先，宽度优先指的是，蜘蛛会先把这个页面所有的链接都爬一次，然后在顺着这些链接往下爬，如下图：

但是宽度优先也存在着问题，那就是蜘蛛抓取的效率和质量问题。

先宽后深 – 权重优先

现在搜索引擎是宽度和深度优先的结合，蜘蛛在抓取一个网页的时候，会先把这个页面所有的链接都抓取一次，然后再根据这些ULR的权重来判定，那个URL的权重高，那么就采用深度优先，那个URL权重低，就采用宽度优先或者不抓取。

重访抓取策略

重访抓取策略，是最后的一个，搜索引擎蜘蛛在抓取完这个网页之后，然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定，那么对于权重高的页面，蜘蛛会在相隔较短的时间段在回来重新抓取，比如新浪网，权重很高，搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重较低的页面，比如长期不更新的页面，那么蜘蛛会隔好长时间在来抓取一次，比如我们常常搜索的百度大更新，蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取，一般情况，百度大更新，一个月一次。

qingaiyijiu · 发表于 2025-11-09 23:18:54

蹲了这么久，终于看到有价值的讨论，支持一下！

Kevin · 发表于 2025-11-11 06:33:56

说得很实在，没有夸大其词，这种真实分享太难得了

鸿股堂 · 发表于 2026-02-10 20:43:55

内容很干货，没有多余的废话，值得反复看

asd25257758 · 发表于 2026-02-13 04:12:33

楼主辛苦了，整理这么多内容，必须点赞收藏

chinaqunying · 发表于 2026-03-04 06:16:33

刚好遇到类似问题，看完这个帖子心里有底了

		自动登录	找回密码
密码			加入怎通

[站长八卦] 百度蜘蛛的抓取痕迹