找回密码
 加入怎通
查看: 1488|回复: 6

[站长八卦] 蜘蛛是如何爬取内容的

[复制链接]
TONY 发表于 2014-09-29 15:29:47 | 显示全部楼层 |阅读模式
    蜘蛛先去抓取百度白名单的网站或者一些信任度非常高的站点和页面(例如:一些高权重网站和网站的首页),在抓取这些网页的内容时发现一些指向另外一些一些页面的链接。蜘蛛会把这些链接保存在自己的数据库里面,然后再根据抓取顺序依次来抓取这些网页。/ V$ [: Q) W1 I( u) q3 q# @- f; j
    1、蜘蛛抓取网页的规则:  G9 y: v. |5 A2 j
    对于蜘蛛说网页权重越高、信用度越高抓取越频繁,例如网站的首页和内页。蜘蛛先抓取网站的首页,因为首页权重更高,并且大部分的链接都是指向首页。然后通过首页抓取网站的内页,并不是所有内页蜘蛛都会去抓取。
4 G2 J4 k2 N# G. }    搜索引擎认为对于一般的中小型站点,3层足够承受所有的内容了,所以蜘蛛经常抓取的内容是前三层,而超过三层的内容蜘蛛认为那些内容并不重要,所以不经常爬取。' p2 ]! o  g: V1 I
    2、如何看蜘蛛的抓取?( S, O) w! Y) [6 Y
    通过iis日志可以看蜘蛛爬取了哪些内容,iis日志有百度蜘蛛、谷歌蜘蛛等。从iis日志里卖弄分析得出蜘蛛的类型、抓取时间、抓取的页面、抓取内容的大小以及返回的页面代码,200代表抓取顺利。5 M4 c3 s6 {9 O
+ [7 S6 Q' s2 @  {: g) D0 w

9 o! R% T, U+ @  o! F8 W& D
回复

使用道具 举报

nono 发表于 2014-11-12 13:20:36 | 显示全部楼层
围观了,感谢分享 /essun.net
回复 支持 反对

使用道具 举报

Negotiator 发表于 2025-11-10 09:49:20 | 显示全部楼层
楼主辛苦了,整理这么多内容,必须点赞收藏
回复 支持 反对

使用道具 举报

今夜有雨 发表于 2025-11-10 19:33:22 | 显示全部楼层
楼主太厉害了,整理得这么详细,必须支持
回复 支持 反对

使用道具 举报

我是水手 发表于 2026-01-19 04:17:46 | 显示全部楼层
完全赞同,我也是这么认为的,英雄所见略同~
回复 支持 反对

使用道具 举报

脆-柿子 发表于 2026-03-17 12:04:03 | 显示全部楼层
这个分享太实用了,刚好能用到,感谢楼主!
回复 支持 反对

使用道具 举报

JSXT 发表于 2026-04-04 03:07:54 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-4-27 23:36 , Processed in 0.497197 second(s), 28 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表