找回密码
 加入怎通
查看: 592|回复: 2

[站长八卦] 站长们千万不要忽略Robots的强大作用

[复制链接]
TONY 发表于 2012-02-24 20:30:17 | 显示全部楼层 |阅读模式
之前我一直强调细节的优化,是的现在的百度对网站的要求就是看你的细节做得好不好,代码、标签等等有属于细节,那么Robots也属于网站细节的一部分,做好他对我们网站有一个很大的帮助,可能有很多新站长不知道Robots是一个什么东东,下面我就给大家说几点关于Robots的操作。          一、Robots.txt的由来
) [. p4 }) U" [' z- `' ]( Z9 k          我们首先要明白Robots不是一个命令或者指令,Robots是一个网站和搜索引擎的第三方协议,协议的内容就是Robots.txt里面的内容,早期在网站是用于隐私保护用的,他是存在于我们网站根目录的一个txt文件。% L+ z3 s+ h: @, i* _& c( Y
          二、Robots.txt的作用4 s( V4 m1 F" M/ D. I
          我们做好网站上线的时候,会有很多不可抗拒的因素被搜索引擎放出来,从而导致我们的网页的质量整体下降,导致我们网站在搜索引擎的印象变差,Robots的作用就是屏蔽这些不可抗拒的因素不让蜘蛛把他们放出来,那么我们具体应该屏蔽哪一些页面呢?
1 }# T: Q, ~( Z/ x/ c  1.屏蔽一些无内容页面:给大家举个例子就了然了,例如:注册页、登陆页、购物页、发帖页、留言页、搜索首页、如果你做了404错误页面也要屏蔽。. S$ s7 I* ~; f3 f" L! P
          2.屏蔽重复页面:如果我们发现我们网站有两个内容相同的页面,但是路径不同,我们就要用Robots屏蔽一个页面,蜘蛛还是会抓取但是不会放出来,我们可以在谷歌站长工具里面直接查看被拦截的页面数量。2 D2 @' \( M' S8 z
          3.屏蔽一些死链接页面9 D/ Z- m0 J- k# V( Z
          我们只屏蔽那些带有普通特征的页面就可以,蜘蛛爬取不到并不意味着蜘蛛抓取不到地址,能够抓取到地址和能否抓取到是两个概念,当然我们可以进行处理的死链接我们是不需求屏蔽的,不可以处理的比如我们该路径造成的死链接我们是需要屏蔽的。) r/ s% m2 R3 a0 M' H( R, R. g# a; Z9 j
          4.屏蔽一些较长的路径:超过网址输入框的长路径我们可以用Robots屏蔽。* E  r$ s/ r( i) m6 m. u2 V
          三、Robots.txt的使用
1 Y+ M. D7 `7 K0 J9 z9 k          1.Robots.txt的建立
$ a9 ?8 |; S7 b1 _5 y          在本地新建一个记事本文件,把它命名为Robots.txt,然后把这个文件放到我们的根目录下,这样我们的Robots.txt就建立完成了,有些开源程序比如织梦是自带Robots的,我们修改的时候只要从根目录下载就行。) G' X' j- M4 T) ^0 E
          2.常见的语法4 L" y0 D# m( h" e9 W4 e
          User-agent这个语法是定义搜索引擎爬取程序的。Disallow这个是禁止的意思。Allow这个是允许的意思。
0 M3 E. y! K$ C( B( u0 P4 y          我们先来认识搜索引擎抓取程序也就是蜘蛛或者机器人! l$ |% c# n4 g  l
          百度蜘蛛我们在Robots里就写Baiduspider而谷歌机器人我们就写Googlebot6 }8 g5 E9 i( e8 D
  我们来介绍写法,我们的第一行是先要定义搜索引擎
5 ~+ }6 f' H' C          User-agent: Baiduspider(特别要注意的是我们在写Robots的时候冒号后面一定要有一个空格,同时如果我们要定义所有搜索引擎我们就要用*带代替Baiduspider); g5 `* y0 Q& f
  Disallow: /admin/
; \- j9 ~: g7 r0 z/ S  这句话的意思是告诉百度蜘蛛您不要来收录我网站的admin文件夹当中的网页,如果我们把admin后面的斜杠去掉这个的意思即完全变了,意思就成了告诉百度蜘蛛您不要收录我根目录里所有的admin文件夹当中的网页。
5 f8 J9 R. X1 h2 D0 ~. ~          Allow意思是允许、不禁止,一般来说不会单独使用它,他会和Disallow一起使用,一起使用的目的是便于目录的屏蔽灵活的应用,更为了减少代码的使用,举个例子比如我们/seo/文件夹中有10万个文件,有两个文件是需要抓取的,我们总不能写几万个代码那样会累够呛,我们配合起来仅需要几行就行了。
& M) z& E6 P' z( H9 ~, I' L          User-agent: *(定义所有搜索引擎)7 {3 b3 _; t) \/ h
  Disallow: /seo/ (禁止对seo文件夹进行收录)& O3 ^' K0 c- M4 W
  Allow: /seo/ccc.php
8 `1 O0 S/ U$ o" ]; S# g4 f  Allow: /seo/ab.html
  J! M  }4 ~" C/ C  同时允许这两个文件需要抓取收录,这样我们四行代码就解决了,有人会问是Disallow放在前面还是Allow放在前面,还是Disallow放在前面更规范。
5 R; n4 M+ x$ n4 M          本文由完美女性(http://w-nvxing.com/)、完美两性(http://w-liangxing.com/)站长发表,http://www.51diaoche.net供稿 欢迎转载 转载请注明原作者
回复

使用道具 举报

展翼-腾飞 发表于 2026-01-25 18:41:08 | 显示全部楼层
说得很实在,没有夸大其词,这种真实分享太难得了
回复 支持 反对

使用道具 举报

娘王 发表于 2026-02-01 06:37:41 | 显示全部楼层
楼主太厉害了,整理得这么详细,必须支持
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-25 08:53 , Processed in 0.060635 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表