搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。
) b3 K/ i' P# |$ w# \9 y4 k! S5 ~6 V: Y0 l/ v" u
只有在需要禁止抓取某些内容时,写robots.txt才有意义。robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。有的服务器设置有问题,robotx文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这可能使搜索引擎错误解读robots文件信息,所以建议就算允许抓取所有内容,也要建一个空的robots.txt文件,存放在根目录下。
% p+ B: D/ K; Y( E4 c" R: T3 ~4 A' i- ^$ C
使用robots.txt文件可以让搜索引擎看网站更规范和权威。
- R" j! |5 o( ^. }# y) |- T" N
1 X* ?) i$ u$ \5 o- H$ I) K用robots.txt文件的好处主要有四方面。
3 o V! b& F5 x1 y1 A8 S3 u: C
" x- l2 g/ l7 R7 T1、用robots.txt屏蔽死链接。
7 _0 W" X& d3 A死链接就是原来存在,后来因为改版或更新等缘故删除了的链接和网页,可以用robots.txt屏蔽。: |4 R7 c5 f. y$ J( }
( T |9 ?2 l5 w! A, K# u
2、用robots.txt屏蔽相似的页面或没内容的页面。" e" }- g8 r0 Y0 N6 F) _ Q" o! n
我们知道,搜索引擎收录网页后,会对网页进行“审核”,当网页的相似度很高时,会删除其中一个。$ Q- Q. y. h& b: }% N
9 k, \1 @6 q$ x) `: M3、用robots.txt屏蔽多余的链接,当动态和静态共存时,一般去掉动态的。! E' s6 @9 L! P8 q% M
网站中经常会存在多个链接指向同一个页面,这种情况普遍存在时,会让搜索引擎对网站的权威性产生怀疑。) O* ]1 g x! F* s
通过robots.txt把非主要的链接去掉。% k2 u: V, A6 i4 j
0 i0 Q; J3 ~, _& t+ p- u4、用robots.txt屏蔽可能存在的“被K”外部链接。# b# J n8 n4 D, e
很多网站允许用户放自己的网站链接,但因为过多的“被K”外部链接可能连累自己。
; p) K# z6 G+ f5 F, f( F
% u$ {" j, [( B( a7 c所以,我们把所有外部链接放入一个链接目录下,然后通过robots.txt统一屏蔽。' s( `# P0 q. r I7 e
9 o B# A2 v+ G5 T# f8 m7 U
5 r( P+ w- y7 Q& c( A+ k& R7 k2 O
|