robots文件主要是为了防止搜索引擎收录和索引特定的页面。减小复制内容的出现。如seohu.net,同时具有动态URL和静态URL,它们同时指向相同的页面。如果搜索引擎同时收录就会造成复制页面。
- K' X& ?6 U" `( L
0 y9 l% ], t' _' x0 H 1.robots文件放在哪里
! C9 U g: O: K( `: ?% {$ s4 c, w+ y$ s
robots文件放在网站根目录下,搜索引擎进入网站查看的第一个文件就是 robots文件。 robots文件是规定搜索引擎抓取范围的文件。如果我们希望网站某些页面不被抓取,只需要创建一个 robot.txt,写入禁止收录的页面并上传到网站根目录下。2 X4 j \" I6 _2 u( Y# a, F
4 b5 z# @0 q$ g$ J2 s 2.robots文件怎么写
7 F2 ~3 u8 r# A: m# l$ Z: k ~, m {5 T
robots文件由记录组成,记录之间以空行分开,记录格式为:<域>可选空格><域值><可选空格>3 @$ I5 p5 \4 r* S
i9 @' v( d% ?/ U; o2 b
如: User-agent1 u( ~1 @' j+ I+ t/ O t5 S
" I$ G: z, f! Q1 k, ?$ C3 R Disallow:/ @( s, P3 A8 M( e
, Y( ~, g% o, x' [6 P
这面的这个robots文件代表禁止任何搜索引擎抓取网站任何页面。只针对百度蜘蛛则用:. g- u' @% B- o0 E c8 e# ^/ A
! t- r, @7 d- W9 D0 M- E: D( z" G
User-agent:Baiduspider6 y& x5 t/ n: U b
: J' E, ]' T0 s2 m
针对谷歌则用:
3 j+ W& R) B5 K2 @$ q6 }8 s) L, }. [3 t9 q
User-agentooglebot3 U2 {2 n, D" g' j* z( ?5 S
- \6 D" t N- o$ W* `1 b 如下面的robots代表禁止百度抓取动态URL和文件夹temp下的文件
7 q2 i( n9 G7 w. X+ h: G& }* h& \
/ t% G! `$ ]" m a6 j. D5 F User-agent:Baiduspider2 u4 Y) k" Z, t) ?1 q4 B
8 G6 r( W. K) y
Disallow?*: F' T, g- ~" w! z
: i: E) W9 t. j; v- U Disallow:/temp/. M- t9 `; R, N1 T& Q4 N& W
0 k4 K* h) G: ?- k0 Q% n 其中*为通配符,可以代表任何一段代码。详细匹配可以看:
0 P* O4 R8 U" H! Y h) {. E6 B5 z6 }
Seohu:主流搜索引擎都支持robots文件禁止收录机制。但如果有外部链接指向禁止收录的页面,这个页面还是可能出现在搜索结果中。其表现形式一般为导入链接的锚文字显示为标题和描述。本文写的很简单,如果还想深入了解,请在后面回帖留言。我会给大家解答。 |