找回密码
 加入怎通
查看: 585|回复: 2

[站长八卦] 如何查看网站被蜘蛛抓取情况?

[复制链接]
筱贰 发表于 2012-07-31 13:47:16 | 显示全部楼层 |阅读模式
如何查看网站被蜘蛛抓取情况?. D1 I8 F! R2 b9 }: v" C
百度用于抓取网页的程序叫做Baiduspider – 百度蜘蛛,我们查看网站被百度抓取的情况主要是分析,网站日志里百度蜘蛛Baiduspider的活跃性:抓取频率,返回的HTTP状态码。
1 n6 d! c7 v) I5 d4 U( I; I查看日志的方式:3 a% Y1 ]* W2 `6 a, l) M6 n" W6 m
通过FTP,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。) T) ?7 Q% u4 m! |$ N
因为各个服务器和主机的情况不同,不同的主机日志功能记录的内容不同,有的甚至没有日志功能。
- d  ?3 x, @, H/ s) q. w0 P日志内容如下:# k' {0 X5 s) q' s
61.135.168.22 – - [11/Jan/2009:04:02:45 +0800] “GET /bbs/thread-7303-1-1.html HTTP/1.1″ 200 8450 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”  
5 q0 b& I8 J0 ~  l9 x( [分析:
7 @  d+ m9 w$ ]- W, F9 ~8 }& HGET /bbs/thread-7303-1-1.html   代表,抓取/bbs/thread-7303-1-1.html 这个页面。
+ j: y" y+ v) }- ?" N6 @' Z3 ]200  代表成功抓取。6 r/ I2 P5 [- P
8450  代表抓取了8450个字节。
" i& f( d. I" T5 A如果你的日志里格式不是如此,则代表日志格式设置不同。/ T# f! `, J3 [4 J
很多日志里可以看到 200 0 0和200 0  64 则都代表正常抓取。
2 d. V  }2 {% w) T2 i& n+ G' h4 z抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。当然,我们希望百度蜘蛛每日抓取的次数越多越好。
! v& v. n/ i3 T* o+ f! Z/ _原创文章作者   哈尔滨展览展示(www.zlzhanshi.net) 转载以链接形式注明!/ B5 M( o5 D' N8 [

8 v/ D6 z+ w& y1 Y
回复

使用道具 举报

私念 发表于 2026-03-16 11:24:13 | 显示全部楼层
说得很实在,没有夸大其词,这种真实分享太难得了
回复 支持 反对

使用道具 举报

V丶你着迷 发表于 2026-05-15 11:17:37 | 显示全部楼层
完全赞同,我也是这么认为的,英雄所见略同~
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-5-15 11:22 , Processed in 0.105913 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表