搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。: X; n/ P4 }( B9 J
' r7 r; i8 \ d5 H' a' Y, j
只有在需要禁止抓取某些内容时,写robots.txt才有意义。robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。有的服务器设置有问题,robotx文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这可能使搜索引擎错误解读robots文件信息,所以建议就算允许抓取所有内容,也要建一个空的robots.txt文件,存放在根目录下。) i Y. s% G; Q8 |& K3 C
3 @; f& c, s8 {" q* P) ]
使用robots.txt文件可以让搜索引擎看网站更规范和权威。: U4 Q" i7 Q% {: n$ q$ {
9 E% U5 d8 E. V ]9 m1 j/ j
用robots.txt文件的好处主要有四方面。: X0 J8 `$ F+ \, R8 p- C, h
/ y9 q! o- y, ]# z# V- [
1、用robots.txt屏蔽死链接。0 z7 a& X6 D' W% I$ R
死链接就是原来存在,后来因为改版或更新等缘故删除了的链接和网页,可以用robots.txt屏蔽。$ l7 H3 q! |$ [( E
6 ?7 w/ q. B. }# E2、用robots.txt屏蔽相似的页面或没内容的页面。+ Q Z Q1 W' z7 |, \+ d) H
我们知道,搜索引擎收录网页后,会对网页进行“审核”,当网页的相似度很高时,会删除其中一个。9 \1 t1 v+ i' X$ M
+ X: K4 N7 W6 O# ^3、用robots.txt屏蔽多余的链接,当动态和静态共存时,一般去掉动态的。5 w0 `! T8 [9 A5 u7 v- ^5 ?0 L" o
网站中经常会存在多个链接指向同一个页面,这种情况普遍存在时,会让搜索引擎对网站的权威性产生怀疑。" G2 y& o5 q. B7 @
通过robots.txt把非主要的链接去掉。5 \0 c" ]+ P8 Q2 r% \4 h& e
6 d3 V1 H G0 q& ~! B
4、用robots.txt屏蔽可能存在的“被K”外部链接。
w8 u3 r" Q [4 j C: K很多网站允许用户放自己的网站链接,但因为过多的“被K”外部链接可能连累自己。+ f0 n9 [# x2 T: [
$ u. R* l* x7 f6 E' O8 y/ \9 p
所以,我们把所有外部链接放入一个链接目录下,然后通过robots.txt统一屏蔽。
9 p& M2 l+ K( ^# j' z
4 A3 d, y g/ t% @& |( b6 U( o. o/ ^7 g9 `( D
|