找回密码
 加入怎通
查看: 2118|回复: 3

[其他] 新站不收录的原因分析:robots.txt文件

[复制链接]
宋海波合 发表于 2013-09-03 19:57:13 | 显示全部楼层 |阅读模式
            今天无意中看到一位站长朋友的诉说,讲的是他新站为什么没有被收录,从发现问题的原因到解决问题中一系列的工作。感觉比较典型,很多人可能会遇到,现在贴出来分享给大家。
4 m- f& M% c; A5 U; }' |8 m$ b( r  @/ s" \" f
            问题原因:
( l: ~8 Y. @  ~  N  E! x2 F# j9 N6 j+ R
            该站长在新站上线后不久,网站内部就出现了重大的bug(漏洞)。该站长先用robots.txt文件屏蔽了搜索引擎的的抓取,然后对网站的bng进行修复。
% D# R* d# ^2 D( n1 C5 o$ ~5 D* Y6 C: T4 G- T
            问题处理:
; ]6 S" z" Q: O6 D& b$ f2 D" O1 d3 K) z) D5 J" ?! F
            等到网站的bug修复完成后,该网友再次对robots.txt文件进行了修改,允许所有搜索引擎的抓取。表面上看做到这一步就可以等搜索引擎过来抓取内容了,可是一个星期过去网站一点反应也没有,查看网站日志,连蜘蛛都木有来过。于是干脆删除了网站的robots.txt文件。5 D& d9 k0 U6 l8 H, i! l* c2 l2 V* h8 r
1 ^  l. y3 {" O, B, T9 T0 \" o
            问题原理:5 z. p/ {2 b( ~- x' P  _# V+ g

- I1 R: Q' h7 L( ]            通过百度站长工具检测,发现了原来原因就隐藏在robots.txt文件中,当他发现网站有bng的时候,他禁止了搜索引擎的抓取,而蜘蛛发现这个网站是禁止抓取的,就会默认一个时间段不在去爬了。百度的站长工具显示,网站robots.txt文件更新时间就停留在禁止搜索引擎抓取的那天,以后都没在更新过。这也就更加证明了蜘蛛在爬行到一个禁止抓取的页面,它就不在抓取,并默认下次在来抓取的时间间隔,这就可以解释了很多站长为什么在解除robots.txt文件限制蜘蛛抓取后,也要一段才会重新收录新内容的原因了,只是以前百度没有出站长工具我们不知道而已。
4 _/ d' j- h" H' H6 G7 B/ ^2 o' L
$ o' g1 q4 B8 W            解决办法:
/ \6 R2 ~- y# o' A; O* t6 k9 p+ t3 L/ L8 a8 i
            知道了原理,那么解决起来也就容易多了。大家请看下图:% L$ @( L" u! Z# a; s6 W
% A) k1 a( t; a2 R
         
7 X$ [. m! J1 P  ]7 n2 t5 `2 m# I
/ {' P! K/ g- v! M7 s* p$ U            先去开通百度站长工具-robots.txt工具,在更新一下就可以了,新站没有收录一定不要忽略robots.txt文件。上海到成都物流:http://www.chengdu56.com
1 E( s7 P6 ]9 a( M, z% n
1 t/ P4 \0 \" |  L/ D6 X
回复

使用道具 举报

、_End. 发表于 2026-01-24 00:51:16 | 显示全部楼层
这个思路很新颖,打开了新世界的大门,谢谢分享
回复 支持 反对

使用道具 举报

荷叶青青 发表于 2026-02-25 17:13:52 | 显示全部楼层
楼主辛苦了,整理这么多内容,必须点赞收藏
回复 支持 反对

使用道具 举报

石家庄256 发表于 2026-03-17 00:33:29 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-5-1 14:37 , Processed in 0.075208 second(s), 23 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表