本文要介绍的是关于robots文件的一些信息。
' y7 ?$ j; y- o' h) p, D robots.txt是一个纯文本形式的文件,例如我们的记事本,当每个搜索引擎蜘蛛访问我们的站点时,蜘蛛首先要检查的就是所在站点是否存在robots.txt文件,如果该文件存在,那么蜘蛛就会按照robots里的协议进行爬取。如果robots.txt不存在那么蜘蛛就会按照链接去爬取各个页面。如果没有配置robots.txt的站点,蜘蛛将被转到,如果没有设置404错误页面这是对搜索引擎不友好的。而robots文件必须是txt完全小写格式,必须放在网站的根目录下。
2 L; a0 E; M) I: ~' t5 W g$ P J 我们可以理解为,robots.txt是一个互联网协议,如果robots里禁止蜘蛛爬取那么蜘蛛就会遵循这个旨意。robots起到引导保护自己不想被蜘蛛爬取的页面。比如说私密文件。5 y0 @7 Y% F. [, Q
那么其重要用途是什么呢? 我们可以合理利用蜘蛛这个特性,来有效的引导蜘蛛的爬行路径,减少蜘蛛的爬行深层页面的压力,从而叫蜘蛛搜索更大的信息,提高网站收录。而在进行网站优化的时候,很多站长都会使用robots来禁止蜘蛛爬取不相关,不利于网站优化的页面。如大量图片,后台,在线购物,在线支付等等。这样就可以提高蜘蛛的爬行能力,这也是网站优化的一个重要细节。
v) P3 Z8 |0 Q0 i0 w! l8 A( ^# c 上面我们了解了,robots.txt能给搜索引擎蜘蛛减压,有效的利用robots.txt可以引导蜘蛛爬行路线,爬取更多的页面,提高收录。那么如何制作robots.txt呢。 指令表示搜索robots可以沿着该页面上的链接继续爬取下去。 那么如何设置网站中不想被爬取的部分呢?6 X6 Z! f" w( s1 N) {3 g
首先创建一个纯文本文件 robots.txt,在这个文件中声明该网站中不想被robot访问的部分。该文件必须放在网站根目录下。
3 P: Z. u. q7 y& A- v robots.txt文件包含一条或更多的记录,这些记录通过空行分开(以cr、cr / nr、或nl作为结束符),每一条记录格式为: ":" 在该文件中可以使用#进行注解。
/ H& w7 @$ _- ~3 R: W: c" Z robots.txt文件用法举例
6 v7 Y! \# _3 ]3 ?+ l 1.禁止所有搜索引擎访问网站的任何部分。
! p( r) j) \! k6 q5 R7 h7 V& W User-agent:*
. I1 V6 d( h, F Disallow:/0 K; B+ p5 q( c* `* y4 J
2.禁止某个搜索引擎的访问。
7 T+ @ S4 L: C( O& g" A! ] User-agent: BadBot
, K. v7 n& d7 n: G9 J Disallow:/1 S8 D$ l* F6 m+ l
3.允许某搜索引擎的访问
/ T' i2 U( k9 r4 e2 g2 v! i" [ User-agent: baiduspider
0 C# ?+ a9 R; j8 n3 X Disallow:
0 Q0 o& K0 w2 p% K User-agent:*
! p! J1 _9 f: H w! q- H Disallow:/3 _, ~1 F9 k1 V8 l7 I& U
4.一个简单的例子
. |) Q9 X! w" R$ T% L 改网站又3个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这3个目录。
' Q0 y! A0 q$ \ User-agent:*0 C7 H8 ]/ Y6 f: ^. R# J
Disallow: /cgi-bin/
9 R4 c" O8 b* f7 q0 {" H Disallow:/tmp/# r3 V, B6 w' t9 g5 \, |, \
Disallow:/admin/& u. ~6 U5 |& F3 T# W4 [$ u5 p
需要注意的是对每一个目录需要分开声明。 |