之前我一直强调细节的优化,是的现在的百度对网站的要求就是看你的细节做得好不好,代码、标签等等有属于细节,那么Robots也属于网站细节的一部分,做好他对我们网站有一个很大的帮助,可能有很多新站长不知道Robots是一个什么东东,下面我就给大家说几点关于Robots的操作。 一、Robots.txt的由来
6 Z+ s! H) n# a& h 我们首先要明白Robots不是一个命令或者指令,Robots是一个网站和搜索引擎的第三方协议,协议的内容就是Robots.txt里面的内容,早期在网站是用于隐私保护用的,他是存在于我们网站根目录的一个txt文件。
7 f. S8 T- F! _( C' {" ^' L 二、Robots.txt的作用+ }; W" v+ K. p) K# i1 y b; |2 }) B
我们做好网站上线的时候,会有很多不可抗拒的因素被搜索引擎放出来,从而导致我们的网页的质量整体下降,导致我们网站在搜索引擎的印象变差,Robots的作用就是屏蔽这些不可抗拒的因素不让蜘蛛把他们放出来,那么我们具体应该屏蔽哪一些页面呢?
0 p+ W: A9 T9 A7 T2 A( q 1.屏蔽一些无内容页面:给大家举个例子就了然了,例如:注册页、登陆页、购物页、发帖页、留言页、搜索首页、如果你做了404错误页面也要屏蔽。
% C9 M4 T2 u1 J% M- C5 C 2.屏蔽重复页面:如果我们发现我们网站有两个内容相同的页面,但是路径不同,我们就要用Robots屏蔽一个页面,蜘蛛还是会抓取但是不会放出来,我们可以在谷歌站长工具里面直接查看被拦截的页面数量。' r- X% E5 t4 E4 ^5 N9 c: o+ T* }& `, P
3.屏蔽一些死链接页面
: y4 a4 C, t! g) _ 我们只屏蔽那些带有普通特征的页面就可以,蜘蛛爬取不到并不意味着蜘蛛抓取不到地址,能够抓取到地址和能否抓取到是两个概念,当然我们可以进行处理的死链接我们是不需求屏蔽的,不可以处理的比如我们该路径造成的死链接我们是需要屏蔽的。
5 n1 g1 L# Z9 ~# ~ 4.屏蔽一些较长的路径:超过网址输入框的长路径我们可以用Robots屏蔽。& A; m' M: U6 e7 T; t' E& d
三、Robots.txt的使用: Q( u9 i9 N# p1 x$ R1 e1 `
1.Robots.txt的建立
3 l7 {+ Q' O1 P; `# Q9 ]" i 在本地新建一个记事本文件,把它命名为Robots.txt,然后把这个文件放到我们的根目录下,这样我们的Robots.txt就建立完成了,有些开源程序比如织梦是自带Robots的,我们修改的时候只要从根目录下载就行。
7 Y# p5 |$ m3 j p: C0 I 2.常见的语法
( Y% \/ P6 p1 m+ V User-agent这个语法是定义搜索引擎爬取程序的。Disallow这个是禁止的意思。Allow这个是允许的意思。/ T1 H2 t5 }# J+ s& X/ I
我们先来认识搜索引擎抓取程序也就是蜘蛛或者机器人, n4 Q$ Q8 ?! @3 f
百度蜘蛛我们在Robots里就写Baiduspider而谷歌机器人我们就写Googlebot+ A9 `, ], y$ j. U: I
我们来介绍写法,我们的第一行是先要定义搜索引擎
. F7 R9 [' {$ F7 U h! T2 W _ User-agent: Baiduspider(特别要注意的是我们在写Robots的时候冒号后面一定要有一个空格,同时如果我们要定义所有搜索引擎我们就要用*带代替Baiduspider). S1 O( w% }/ L! K/ }; T& [1 f
Disallow: /admin/
& `) H. R4 q0 |( m% h' R. Y1 G 这句话的意思是告诉百度蜘蛛您不要来收录我网站的admin文件夹当中的网页,如果我们把admin后面的斜杠去掉这个的意思即完全变了,意思就成了告诉百度蜘蛛您不要收录我根目录里所有的admin文件夹当中的网页。9 D) A1 L z" Z( i& o! _
Allow意思是允许、不禁止,一般来说不会单独使用它,他会和Disallow一起使用,一起使用的目的是便于目录的屏蔽灵活的应用,更为了减少代码的使用,举个例子比如我们/seo/文件夹中有10万个文件,有两个文件是需要抓取的,我们总不能写几万个代码那样会累够呛,我们配合起来仅需要几行就行了。" z' r) o3 s: }% b0 h- g
User-agent: *(定义所有搜索引擎)2 w( Q S; ^" V0 S9 T9 T
Disallow: /seo/ (禁止对seo文件夹进行收录)( ?* x9 J/ y: c9 p
Allow: /seo/ccc.php
! z: e4 G9 z* I7 Z' p- d Allow: /seo/ab.html$ g& i1 @4 u4 K; X
同时允许这两个文件需要抓取收录,这样我们四行代码就解决了,有人会问是Disallow放在前面还是Allow放在前面,还是Disallow放在前面更规范。
* ]1 K0 K7 ^. f8 ? 本文由完美女性(http://w-nvxing.com/)、完美两性(http://w-liangxing.com/)站长发表,http://www.51diaoche.net供稿 欢迎转载 转载请注明原作者 |