一、为什么Robots.txt?
$ h5 H# ^5 r! p( ^, d在进行SEO操作的时候,我们需要告诉搜索引擎哪些页面重要哪些页面不重要,重要的页面让蜘蛛进行抓取,不重要的页面进行屏蔽可以减少网站服务器的负担。
$ q! R- [3 W2 p/ h
9 V% g! [: y) v二、一些常见的问题和知识点
) j2 G5 Z/ l" T1、蜘蛛在发现一个网站的时候,第一步是抓取网站的Robots.txt文件(当然官方上是这么说的,有时候也会出现不遵守的情况);
1 J; z0 A4 g, p( ^2、建议所有的网站都要设置Robots.txt文件,如果你认为网站上所有内容都是重要的,你可以建立一个空的robots.txt文件;
, F/ |, ` [: [ @1 W- a$ X% q0 u0 E. Z
三、在robots.txt文件中设置网站地图
' s+ Y# B0 |0 p9 @/ \- m你可以在robots.txt中添加网站的地图,告诉蜘蛛网站地图所在的地址。你可以像这样来添加:
% c5 P- V$ ^! F" h2 ySitemap:http://www.seowhy.com/map.xml(支持链接形式:xml、html,一般建议使用xml形式)
$ d3 {% _ z& }5 F `6 W# h. {7 w1 b% A+ D$ `5 I
四、Robots.txt的顺序
+ S$ N, Z7 i5 M8 _- W8 G1 ~在蜘蛛协议中,Disallow 与 Allow是有顺序的,这是一个非常重要的问题,如果设置错误可能会导致抓取错误。
/ E$ P9 W% V4 }5 K# p4 x# J引擎蜘蛛程序会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL,一个例子可以让你更清楚明白:
/ o; [( X; |" M% j3 p+ J# E1 ^, c- y+ z+ L: T: j) V* C9 K; P6 J
www.gouwozi.com |