本文要介绍的是关于robots文件的一些信息。
\- b+ g# U& j$ ?, Z( ` robots.txt是一个纯文本形式的文件,例如我们的记事本,当每个搜索引擎蜘蛛访问我们的站点时,蜘蛛首先要检查的就是所在站点是否存在robots.txt文件,如果该文件存在,那么蜘蛛就会按照robots里的协议进行爬取。如果robots.txt不存在那么蜘蛛就会按照链接去爬取各个页面。如果没有配置robots.txt的站点,蜘蛛将被转到,如果没有设置404错误页面这是对搜索引擎不友好的。而robots文件必须是txt完全小写格式,必须放在网站的根目录下。2 [2 z1 Q3 V- R- k& w' l* D2 i B
我们可以理解为,robots.txt是一个互联网协议,如果robots里禁止蜘蛛爬取那么蜘蛛就会遵循这个旨意。robots起到引导保护自己不想被蜘蛛爬取的页面。比如说私密文件。( M: f8 ?/ ` Z+ z
那么其重要用途是什么呢? 我们可以合理利用蜘蛛这个特性,来有效的引导蜘蛛的爬行路径,减少蜘蛛的爬行深层页面的压力,从而叫蜘蛛搜索更大的信息,提高网站收录。而在进行网站优化的时候,很多站长都会使用robots来禁止蜘蛛爬取不相关,不利于网站优化的页面。如大量图片,后台,在线购物,在线支付等等。这样就可以提高蜘蛛的爬行能力,这也是网站优化的一个重要细节。9 P! T- v8 i0 a2 X, X `+ n
上面我们了解了,robots.txt能给搜索引擎蜘蛛减压,有效的利用robots.txt可以引导蜘蛛爬行路线,爬取更多的页面,提高收录。那么如何制作robots.txt呢。 指令表示搜索robots可以沿着该页面上的链接继续爬取下去。 那么如何设置网站中不想被爬取的部分呢?$ a9 B( x" N' `6 U
首先创建一个纯文本文件 robots.txt,在这个文件中声明该网站中不想被robot访问的部分。该文件必须放在网站根目录下。. z: Q! ?; M% L, v
robots.txt文件包含一条或更多的记录,这些记录通过空行分开(以cr、cr / nr、或nl作为结束符),每一条记录格式为: ":" 在该文件中可以使用#进行注解。4 G$ x5 g$ n, c. M* _
robots.txt文件用法举例
% [/ a# m6 h6 n: ^( ^ 1.禁止所有搜索引擎访问网站的任何部分。6 R. K+ Z. z s3 I# N+ o2 B Y
User-agent:*
4 @3 T7 S+ G/ Q Disallow:/; ^( Q, ]$ c( v/ I. ^: [
2.禁止某个搜索引擎的访问。* ^3 q8 M* n$ _# @; n% Q9 R. L9 U ?
User-agent: BadBot
) q6 C; d* m$ @2 t& L9 ^5 L Disallow:/
e/ Y x% T0 z 3.允许某搜索引擎的访问
5 V3 A1 F0 `# ~7 m" C+ E User-agent: baiduspider
' H/ u" l; E4 n7 c1 M, y# b- k Disallow:
6 e" T+ t# o( l User-agent:*$ o0 s- d8 [) }0 z( {1 s
Disallow:/" f3 t$ L2 W7 e3 P
4.一个简单的例子
7 r. _# Q* a! i0 a! W. W% ^) @/ |) i& R 改网站又3个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这3个目录。
- m0 w$ r6 U2 }, {; ?1 t1 Z9 F2 f User-agent:*
V i/ O- `* P% Z- g( G6 I Disallow: /cgi-bin// }9 R5 p4 u- t% s4 a: K. v% y$ ?
Disallow:/tmp/
5 A3 B, h u# p Disallow:/admin/7 a& {: K' c% X6 \7 H T* c
需要注意的是对每一个目录需要分开声明。 |