蜘蛛是如何爬取内容的

TONY 发表于 2014-09-29 15:29:47

蜘蛛先去抓取百度白名单的网站或者一些信任度非常高的站点和页面（例如：一些高权重网站和网站的首页），在抓取这些网页的内容时发现一些指向另外一些一些页面的链接。蜘蛛会把这些链接保存在自己的数据库里面，然后再根据抓取顺序依次来抓取这些网页。
1、蜘蛛抓取网页的规则：
对于蜘蛛说网页权重越高、信用度越高抓取越频繁，例如网站的首页和内页。蜘蛛先抓取网站的首页，因为首页权重更高，并且大部分的链接都是指向首页。然后通过首页抓取网站的内页，并不是所有内页蜘蛛都会去抓取。
搜索引擎认为对于一般的中小型站点，3层足够承受所有的内容了，所以蜘蛛经常抓取的内容是前三层，而超过三层的内容蜘蛛认为那些内容并不重要，所以不经常爬取。
2、如何看蜘蛛的抓取？
通过iis日志可以看蜘蛛爬取了哪些内容，iis日志有百度蜘蛛、谷歌蜘蛛等。从iis日志里卖弄分析得出蜘蛛的类型、抓取时间、抓取的页面、抓取内容的大小以及返回的页面代码，200代表抓取顺利。

nono 发表于 2014-11-12 13:20:36

围观了，感谢分享 /essun.net

Negotiator 发表于 2025-11-10 09:49:20

楼主辛苦了，整理这么多内容，必须点赞收藏

今夜有雨 发表于 2025-11-10 19:33:22

楼主太厉害了，整理得这么详细，必须支持

我是水手 发表于 2026-01-19 04:17:46

完全赞同，我也是这么认为的，英雄所见略同～

脆-柿子 发表于 2026-03-17 12:04:03

这个分享太实用了，刚好能用到，感谢楼主！

JSXT 发表于 2026-04-04 03:07:54

内容很干货，没有多余的废话，值得反复看

页: [1]

真牛社区's Archiver

蜘蛛是如何爬取内容的