本文要介绍的是关于robots文件的一些信息。
# u( m: J1 g2 K6 d; o& z/ D( n robots.txt是一个纯文本形式的文件,例如我们的记事本,当每个搜索引擎蜘蛛访问我们的站点时,蜘蛛首先要检查的就是所在站点是否存在robots.txt文件,如果该文件存在,那么蜘蛛就会按照robots里的协议进行爬取。如果robots.txt不存在那么蜘蛛就会按照链接去爬取各个页面。如果没有配置robots.txt的站点,蜘蛛将被转到,如果没有设置404错误页面这是对搜索引擎不友好的。而robots文件必须是txt完全小写格式,必须放在网站的根目录下。
& }; f5 j8 Y4 H4 b( `! ~6 r) D2 K4 f 我们可以理解为,robots.txt是一个互联网协议,如果robots里禁止蜘蛛爬取那么蜘蛛就会遵循这个旨意。robots起到引导保护自己不想被蜘蛛爬取的页面。比如说私密文件。
9 @2 w5 g) V" m* m8 `* | 那么其重要用途是什么呢? 我们可以合理利用蜘蛛这个特性,来有效的引导蜘蛛的爬行路径,减少蜘蛛的爬行深层页面的压力,从而叫蜘蛛搜索更大的信息,提高网站收录。而在进行网站优化的时候,很多站长都会使用robots来禁止蜘蛛爬取不相关,不利于网站优化的页面。如大量图片,后台,在线购物,在线支付等等。这样就可以提高蜘蛛的爬行能力,这也是网站优化的一个重要细节。
) s6 m8 J9 d8 C0 f7 n- s; Q; D3 C 上面我们了解了,robots.txt能给搜索引擎蜘蛛减压,有效的利用robots.txt可以引导蜘蛛爬行路线,爬取更多的页面,提高收录。那么如何制作robots.txt呢。 指令表示搜索robots可以沿着该页面上的链接继续爬取下去。 那么如何设置网站中不想被爬取的部分呢?
1 }1 F; S7 B; U U+ q 首先创建一个纯文本文件 robots.txt,在这个文件中声明该网站中不想被robot访问的部分。该文件必须放在网站根目录下。
" Z& k$ G- y; A9 [+ W) y4 s robots.txt文件包含一条或更多的记录,这些记录通过空行分开(以cr、cr / nr、或nl作为结束符),每一条记录格式为: ":" 在该文件中可以使用#进行注解。7 _/ G# K% t2 L3 F9 B; j
robots.txt文件用法举例
/ S" I) D" c: |# K0 v% e 1.禁止所有搜索引擎访问网站的任何部分。
/ g: K, X5 m# a) D User-agent:*
: b+ M4 I* a3 j2 c( s7 _5 P! @ Disallow:/6 z( }2 O8 K" u4 v+ _) C" G- G
2.禁止某个搜索引擎的访问。
! T- o* U% `% _$ P5 F5 t User-agent: BadBot
$ H! D7 U: G1 T4 z, H Disallow:/
5 V# n. B; |" Y0 M( i 3.允许某搜索引擎的访问
1 f, ^7 _3 ^% E. L4 v* c- b User-agent: baiduspider+ E- Q, \- H1 l8 B
Disallow:
0 s% k; e3 |" x! F, ` User-agent:*
& {7 w& x; w7 d6 w& M& e Disallow:/1 k2 E: w2 w$ q' C7 O$ V
4.一个简单的例子
; i2 [! r5 B# s5 T/ l3 f0 M2 F 改网站又3个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这3个目录。
, ~! j. ]0 p) j User-agent:*
4 b, a) E0 `- X# `) s Disallow: /cgi-bin/
% w, d1 ^5 z+ c/ Z Disallow:/tmp/
! | h9 L( }! T- ]' L( t' Y I5 J8 ? Disallow:/admin/4 u, I" \5 k |( ~+ Y) p* q
需要注意的是对每一个目录需要分开声明。 |