找回密码
 加入怎通
查看: 583|回复: 1

[站长八卦] 如何查看网站被蜘蛛抓取情况?

[复制链接]
筱贰 发表于 2012-07-31 13:47:16 | 显示全部楼层 |阅读模式
如何查看网站被蜘蛛抓取情况?1 ]! S9 x( u! g
百度用于抓取网页的程序叫做Baiduspider – 百度蜘蛛,我们查看网站被百度抓取的情况主要是分析,网站日志里百度蜘蛛Baiduspider的活跃性:抓取频率,返回的HTTP状态码。  ]/ r: y: z- c  o
查看日志的方式:
& |4 J5 g6 W5 i1 c通过FTP,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。* u, F# E2 L1 A# N# V
因为各个服务器和主机的情况不同,不同的主机日志功能记录的内容不同,有的甚至没有日志功能。
# [+ ~9 K; ^8 f" X9 P0 M# h日志内容如下:
* @4 B. [$ i5 E" o61.135.168.22 – - [11/Jan/2009:04:02:45 +0800] “GET /bbs/thread-7303-1-1.html HTTP/1.1″ 200 8450 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”  
6 A# f$ @# d9 n& @( i7 M分析:
1 t- _' t9 [2 B% DGET /bbs/thread-7303-1-1.html   代表,抓取/bbs/thread-7303-1-1.html 这个页面。' H2 H4 R# s+ `% p
200  代表成功抓取。
& C/ C$ m& C  Q& v8450  代表抓取了8450个字节。7 t* f9 M1 [2 \9 p3 N3 F1 q3 j* O
如果你的日志里格式不是如此,则代表日志格式设置不同。/ t3 K" x3 `% {! w
很多日志里可以看到 200 0 0和200 0  64 则都代表正常抓取。+ Y4 y( B; u  v9 W- E$ K
抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。当然,我们希望百度蜘蛛每日抓取的次数越多越好。# w* J  w  O  F  e7 T+ h
原创文章作者   哈尔滨展览展示(www.zlzhanshi.net) 转载以链接形式注明!
( e3 u/ Y. R7 L& N0 v
6 q7 i2 ?6 k  P5 y  R- [- A; i4 [( d
回复

使用道具 举报

私念 发表于 2026-03-16 11:24:13 | 显示全部楼层
说得很实在,没有夸大其词,这种真实分享太难得了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-5-15 11:17 , Processed in 0.664381 second(s), 49 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表