robots文件主要是为了防止搜索引擎收录和索引特定的页面。减小复制内容的出现。如seohu.net,同时具有动态URL和静态URL,它们同时指向相同的页面。如果搜索引擎同时收录就会造成复制页面。
) \# B V1 {4 n2 Y# o" W. L# m! X/ Q2 ~% \0 P" }3 i+ x
1.robots文件放在哪里* N0 l( P2 i$ i) |3 B' k
; [- {: w0 G3 Y9 H robots文件放在网站根目录下,搜索引擎进入网站查看的第一个文件就是 robots文件。 robots文件是规定搜索引擎抓取范围的文件。如果我们希望网站某些页面不被抓取,只需要创建一个 robot.txt,写入禁止收录的页面并上传到网站根目录下。- l% y$ ^& m6 u
8 K& [; a& K* \( |( o# v9 H7 P
2.robots文件怎么写% f7 \) I1 b; q! U) Q9 ]
5 O j; W) n! x6 k, n) l& W6 G2 v robots文件由记录组成,记录之间以空行分开,记录格式为:<域>可选空格><域值><可选空格>
% U; S. q& l5 w) _, C0 W
8 |* M$ a7 G8 K 如: User-agent
- X- T( w# k8 r
2 N8 E E! p8 N Disallow:/( r! R$ m1 V' e; ?
% Z, K- A% A. G0 m$ u7 E; y. z
这面的这个robots文件代表禁止任何搜索引擎抓取网站任何页面。只针对百度蜘蛛则用:
/ \7 t/ V$ p, L* b( h% \
* J; d; B/ h; s% M) T2 g) w( ?* c User-agent:Baiduspider. u& n8 H! a, G3 X% B
6 ]! M# E( D1 q; ]0 J
针对谷歌则用:
3 n; g% J2 Y, Q% d0 `0 q. w# N7 h0 g; z
User-agentooglebot- @) T; f4 U0 M* c, ]
5 v5 ]. J5 n2 L, s 如下面的robots代表禁止百度抓取动态URL和文件夹temp下的文件% @# k3 n$ C7 [# C) y, d; L
/ o7 }, K- v" e) ^: U0 }8 [ User-agent:Baiduspider
. ?, |5 v Q/ N+ {/ s/ R
0 \% `6 |$ q+ y7 o7 m Disallow?*2 P. A) R; h# O
: m8 v |; S0 ~( k* T/ |1 G% z. W7 d Disallow:/temp/
; V8 ?, k0 R. m7 H B$ s2 o+ p0 V; F, Y) V) u' I: l) s$ O0 j
其中*为通配符,可以代表任何一段代码。详细匹配可以看:1 l# |9 j5 w& v+ P+ [% E: N
# X8 ~' W8 i- O/ I
Seohu:主流搜索引擎都支持robots文件禁止收录机制。但如果有外部链接指向禁止收录的页面,这个页面还是可能出现在搜索结果中。其表现形式一般为导入链接的锚文字显示为标题和描述。本文写的很简单,如果还想深入了解,请在后面回帖留言。我会给大家解答。 |