robots文件主要是为了防止搜索引擎收录和索引特定的页面。减小复制内容的出现。如seohu.net,同时具有动态URL和静态URL,它们同时指向相同的页面。如果搜索引擎同时收录就会造成复制页面。 D7 F$ M; _ _( R1 [1 U
3 k7 d7 F8 H. }& p 1.robots文件放在哪里
6 T* D- [+ y( u; d, e2 M
* _' n9 f1 [2 Q& \ robots文件放在网站根目录下,搜索引擎进入网站查看的第一个文件就是 robots文件。 robots文件是规定搜索引擎抓取范围的文件。如果我们希望网站某些页面不被抓取,只需要创建一个 robot.txt,写入禁止收录的页面并上传到网站根目录下。
; d/ _" t- E5 V! X, W/ k: `/ |5 R" Q0 c# V0 h* `, _
2.robots文件怎么写' T- l0 ?" [- \7 g" I0 H. k7 G1 G
; W$ X' h+ O. d6 {0 h6 B* L robots文件由记录组成,记录之间以空行分开,记录格式为:<域>可选空格><域值><可选空格>
- }. m0 S# X+ T7 \
$ R. _4 N' p, b 如: User-agent
1 L, E( N# }2 O4 t( x* R0 E; T6 p q/ o( J
Disallow:/
% W$ I: B& z/ b, `5 Q) D( Z5 U" ~3 x3 A. e4 b
这面的这个robots文件代表禁止任何搜索引擎抓取网站任何页面。只针对百度蜘蛛则用:7 Y8 i# ]" Q3 X0 l8 n% J* X( l
|" h4 f7 {7 \ User-agent:Baiduspider' p+ Q" r2 @# N7 Z, K3 `; H: a
% t+ P& u+ q! y) z/ V; u+ w 针对谷歌则用:- x/ ~# E+ Z% W' z( A6 n0 X
7 a. `/ }; e. V# l
User-agentooglebot
n+ m# F$ z6 R3 j8 C7 E% j% r. y2 J4 J7 o
如下面的robots代表禁止百度抓取动态URL和文件夹temp下的文件
3 S8 L" u* A. W4 \/ q, m
; K) J( k4 I* C& } User-agent:Baiduspider
& |' a o8 Q) [% ~# ]
9 K# ~* ~2 G" _" Q% I' D" o Disallow?*1 o) Z/ w! m/ I6 r" B a7 D& n- g
$ h, G% [/ ?6 q+ B" @' Y( P; m Disallow:/temp/
' E* v8 ~2 p4 i, S& s+ q; c# f
' v4 K( ^2 r3 w6 j5 {6 o+ a' ~ 其中*为通配符,可以代表任何一段代码。详细匹配可以看:
$ |& V6 B+ D0 R3 @$ j9 G8 J
/ g: } K9 N$ I' y& w( c Seohu:主流搜索引擎都支持robots文件禁止收录机制。但如果有外部链接指向禁止收录的页面,这个页面还是可能出现在搜索结果中。其表现形式一般为导入链接的锚文字显示为标题和描述。本文写的很简单,如果还想深入了解,请在后面回帖留言。我会给大家解答。 |