搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。
8 T; t& L8 B2 s5 x {6 j6 Q
* l& i/ ? u0 h$ G" p1 ^ 只有在需要禁止抓取某些内容时,写robots.txt才有意义。robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。有的服务器设置有问题,robotx文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这可能使搜索引擎错误解读robots文件信息,所以建议就算允许抓取所有内容,也要建一个空的robots.txt文件,存放在根目录下。
! ^! T: t6 M# J! e4 u( j m X8 Y4 Q" R
" S2 X+ l- L; x _: A使用robots.txt文件可以让搜索引擎看网站更规范和权威。& G& A! i' g i2 w' j+ O% [; J
3 y a/ L: U, c; @' k0 T0 O b用robots.txt文件的好处主要有四方面。6 H! I; [7 m/ A1 z! K& Y) X
: W6 L* l1 k, o: w, I* S; t
1、用robots.txt屏蔽死链接。5 N9 c( M- k( w" Q% U
死链接就是原来存在,后来因为改版或更新等缘故删除了的链接和网页,可以用robots.txt屏蔽。7 x5 }0 d) i8 ]1 P1 X3 D+ Q7 w
) ~7 I4 e- O& ~* N& Q; r* U
2、用robots.txt屏蔽相似的页面或没内容的页面。
- h' h8 E( O, E; B1 X我们知道,搜索引擎收录网页后,会对网页进行“审核”,当网页的相似度很高时,会删除其中一个。: k: [# y+ L; O E- n
( y' e9 A1 A5 @9 h
3、用robots.txt屏蔽多余的链接,当动态和静态共存时,一般去掉动态的。
+ ?. _* C* \; d' A0 o1 `网站中经常会存在多个链接指向同一个页面,这种情况普遍存在时,会让搜索引擎对网站的权威性产生怀疑。
4 J) B, C2 h0 Z# X通过robots.txt把非主要的链接去掉。/ M1 n7 f3 Q7 R+ {, b
; J1 t* v3 x7 H% b% G6 m' ?
4、用robots.txt屏蔽可能存在的“被K”外部链接。 p( m9 r0 [/ [& \& m
很多网站允许用户放自己的网站链接,但因为过多的“被K”外部链接可能连累自己。5 }5 J: L6 @$ c- Y
7 w& _' [% @# k& e0 I所以,我们把所有外部链接放入一个链接目录下,然后通过robots.txt统一屏蔽。& k2 {9 C `6 B4 t6 K5 e
7 g6 b" K2 b3 ?) m ?, m: X% s" g4 J$ @0 C
|