搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。
9 v% B' L/ m' \$ X6 i0 v- o0 X, Y3 }) i1 F4 \' M" I) h! ^
只有在需要禁止抓取某些内容时,写robots.txt才有意义。robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。有的服务器设置有问题,robotx文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这可能使搜索引擎错误解读robots文件信息,所以建议就算允许抓取所有内容,也要建一个空的robots.txt文件,存放在根目录下。
, G# F8 d/ B0 G3 L7 T0 x) K3 }
使用robots.txt文件可以让搜索引擎看网站更规范和权威。
7 ]1 O5 h) N6 x6 l. G" o. ]0 \! B4 k# s
用robots.txt文件的好处主要有四方面。
_* p, s3 i! K6 h
x1 T# m% a& |1 B6 w4 ?! {1、用robots.txt屏蔽死链接。* G& D0 G, d7 G- J; e: u
死链接就是原来存在,后来因为改版或更新等缘故删除了的链接和网页,可以用robots.txt屏蔽。" X; L2 K. X7 w1 z: _) G
' Z+ c) A6 d8 \6 a) B6 R8 c3 _2、用robots.txt屏蔽相似的页面或没内容的页面。
" m; J- y& M+ ~6 j6 X/ n+ v我们知道,搜索引擎收录网页后,会对网页进行“审核”,当网页的相似度很高时,会删除其中一个。
/ n5 L. K: k/ E8 z( R5 b& k! Z7 Q1 [
3、用robots.txt屏蔽多余的链接,当动态和静态共存时,一般去掉动态的。- ?& ~4 D, Z! H5 W$ p
网站中经常会存在多个链接指向同一个页面,这种情况普遍存在时,会让搜索引擎对网站的权威性产生怀疑。
+ X) {' M% B- V$ O通过robots.txt把非主要的链接去掉。9 k3 a, B9 ]5 ?2 J4 |- W0 n
S! J# |+ u0 y& {. N m4、用robots.txt屏蔽可能存在的“被K”外部链接。
% @# ^: e5 R' f3 s/ R5 W# }很多网站允许用户放自己的网站链接,但因为过多的“被K”外部链接可能连累自己。
! F7 Q3 _ ~3 L) @6 r0 |& o
% g G% q. Z x2 v' P* q7 \所以,我们把所有外部链接放入一个链接目录下,然后通过robots.txt统一屏蔽。4 i! z+ M2 s7 N% D' h* u
0 v% c6 {; m/ U3 p& t; W
+ e0 K3 R+ c# _3 a) R9 R |