找回密码
 加入怎通
查看: 591|回复: 2

[站长八卦] 站长们千万不要忽略Robots的强大作用

[复制链接]
TONY 发表于 2012-02-24 20:30:17 | 显示全部楼层 |阅读模式
之前我一直强调细节的优化,是的现在的百度对网站的要求就是看你的细节做得好不好,代码、标签等等有属于细节,那么Robots也属于网站细节的一部分,做好他对我们网站有一个很大的帮助,可能有很多新站长不知道Robots是一个什么东东,下面我就给大家说几点关于Robots的操作。          一、Robots.txt的由来
6 Z+ s! H) n# a& h          我们首先要明白Robots不是一个命令或者指令,Robots是一个网站和搜索引擎的第三方协议,协议的内容就是Robots.txt里面的内容,早期在网站是用于隐私保护用的,他是存在于我们网站根目录的一个txt文件。
7 f. S8 T- F! _( C' {" ^' L          二、Robots.txt的作用+ }; W" v+ K. p) K# i1 y  b; |2 }) B
          我们做好网站上线的时候,会有很多不可抗拒的因素被搜索引擎放出来,从而导致我们的网页的质量整体下降,导致我们网站在搜索引擎的印象变差,Robots的作用就是屏蔽这些不可抗拒的因素不让蜘蛛把他们放出来,那么我们具体应该屏蔽哪一些页面呢?
0 p+ W: A9 T9 A7 T2 A( q  1.屏蔽一些无内容页面:给大家举个例子就了然了,例如:注册页、登陆页、购物页、发帖页、留言页、搜索首页、如果你做了404错误页面也要屏蔽。
% C9 M4 T2 u1 J% M- C5 C          2.屏蔽重复页面:如果我们发现我们网站有两个内容相同的页面,但是路径不同,我们就要用Robots屏蔽一个页面,蜘蛛还是会抓取但是不会放出来,我们可以在谷歌站长工具里面直接查看被拦截的页面数量。' r- X% E5 t4 E4 ^5 N9 c: o+ T* }& `, P
          3.屏蔽一些死链接页面
: y4 a4 C, t! g) _          我们只屏蔽那些带有普通特征的页面就可以,蜘蛛爬取不到并不意味着蜘蛛抓取不到地址,能够抓取到地址和能否抓取到是两个概念,当然我们可以进行处理的死链接我们是不需求屏蔽的,不可以处理的比如我们该路径造成的死链接我们是需要屏蔽的。
5 n1 g1 L# Z9 ~# ~          4.屏蔽一些较长的路径:超过网址输入框的长路径我们可以用Robots屏蔽。& A; m' M: U6 e7 T; t' E& d
          三、Robots.txt的使用: Q( u9 i9 N# p1 x$ R1 e1 `
          1.Robots.txt的建立
3 l7 {+ Q' O1 P; `# Q9 ]" i          在本地新建一个记事本文件,把它命名为Robots.txt,然后把这个文件放到我们的根目录下,这样我们的Robots.txt就建立完成了,有些开源程序比如织梦是自带Robots的,我们修改的时候只要从根目录下载就行。
7 Y# p5 |$ m3 j  p: C0 I          2.常见的语法
( Y% \/ P6 p1 m+ V          User-agent这个语法是定义搜索引擎爬取程序的。Disallow这个是禁止的意思。Allow这个是允许的意思。/ T1 H2 t5 }# J+ s& X/ I
          我们先来认识搜索引擎抓取程序也就是蜘蛛或者机器人, n4 Q$ Q8 ?! @3 f
          百度蜘蛛我们在Robots里就写Baiduspider而谷歌机器人我们就写Googlebot+ A9 `, ], y$ j. U: I
  我们来介绍写法,我们的第一行是先要定义搜索引擎
. F7 R9 [' {$ F7 U  h! T2 W  _          User-agent: Baiduspider(特别要注意的是我们在写Robots的时候冒号后面一定要有一个空格,同时如果我们要定义所有搜索引擎我们就要用*带代替Baiduspider). S1 O( w% }/ L! K/ }; T& [1 f
  Disallow: /admin/
& `) H. R4 q0 |( m% h' R. Y1 G  这句话的意思是告诉百度蜘蛛您不要来收录我网站的admin文件夹当中的网页,如果我们把admin后面的斜杠去掉这个的意思即完全变了,意思就成了告诉百度蜘蛛您不要收录我根目录里所有的admin文件夹当中的网页。9 D) A1 L  z" Z( i& o! _
          Allow意思是允许、不禁止,一般来说不会单独使用它,他会和Disallow一起使用,一起使用的目的是便于目录的屏蔽灵活的应用,更为了减少代码的使用,举个例子比如我们/seo/文件夹中有10万个文件,有两个文件是需要抓取的,我们总不能写几万个代码那样会累够呛,我们配合起来仅需要几行就行了。" z' r) o3 s: }% b0 h- g
          User-agent: *(定义所有搜索引擎)2 w( Q  S; ^" V0 S9 T9 T
  Disallow: /seo/ (禁止对seo文件夹进行收录)( ?* x9 J/ y: c9 p
  Allow: /seo/ccc.php
! z: e4 G9 z* I7 Z' p- d  Allow: /seo/ab.html$ g& i1 @4 u4 K; X
  同时允许这两个文件需要抓取收录,这样我们四行代码就解决了,有人会问是Disallow放在前面还是Allow放在前面,还是Disallow放在前面更规范。
* ]1 K0 K7 ^. f8 ?          本文由完美女性(http://w-nvxing.com/)、完美两性(http://w-liangxing.com/)站长发表,http://www.51diaoche.net供稿 欢迎转载 转载请注明原作者
回复

使用道具 举报

展翼-腾飞 发表于 2026-01-25 18:41:08 | 显示全部楼层
说得很实在,没有夸大其词,这种真实分享太难得了
回复 支持 反对

使用道具 举报

娘王 发表于 2026-02-01 06:37:41 | 显示全部楼层
楼主太厉害了,整理得这么详细,必须支持
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-25 08:49 , Processed in 0.344774 second(s), 27 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表