robots文件主要是为了防止搜索引擎收录和索引特定的页面。减小复制内容的出现。如seohu.net,同时具有动态URL和静态URL,它们同时指向相同的页面。如果搜索引擎同时收录就会造成复制页面。
1 R; d6 G" ~: X/ |! b" S& g$ d! w9 J, z' C7 B
1.robots文件放在哪里
" y6 g. z, t/ f- r9 r z
; F) o3 U0 s' ^ robots文件放在网站根目录下,搜索引擎进入网站查看的第一个文件就是 robots文件。 robots文件是规定搜索引擎抓取范围的文件。如果我们希望网站某些页面不被抓取,只需要创建一个 robot.txt,写入禁止收录的页面并上传到网站根目录下。" V3 M, b' a3 I; w
) S# X2 i6 }0 j4 L, x: z+ u" h b
2.robots文件怎么写; H/ q% n5 U; F2 w/ v
3 d: S: O) r& e% H; T1 y& a
robots文件由记录组成,记录之间以空行分开,记录格式为:<域>可选空格><域值><可选空格>
2 z" `0 s0 X* V* I4 e
* V- F7 I( ^* Z" m: k( J2 N; s 如: User-agent Z" o4 u3 F2 h# {- ~9 u' J
5 m/ |- O8 t% |) D- m Disallow:/5 b) Z9 L' S2 s; q! A; w/ S8 Z
; V0 y& f) T: u- j
这面的这个robots文件代表禁止任何搜索引擎抓取网站任何页面。只针对百度蜘蛛则用:% d2 x0 g/ B, C7 j
+ Z/ g! ]4 ?9 d; ?- m User-agent:Baiduspider+ W# g( i' x' h
; w- ^1 D( b+ R% s8 Y! a% V! Q. G
针对谷歌则用:
' x) c- G3 o" Y7 ?
}' K8 K! @& H( p/ R User-agentooglebot% k* C9 x8 e7 k; I' J# d8 Z
9 U' I; b/ i( _% z0 X9 y 如下面的robots代表禁止百度抓取动态URL和文件夹temp下的文件
* A. d: O9 c8 h# z. t
4 {- C6 L% ?8 O3 P1 e User-agent:Baiduspider
+ E* X; D# e, p3 n* H2 T, u7 Z' W! Z7 \; u$ F: K- B: `
Disallow?*$ o, Z8 M2 B5 \" J+ p) n
& b. l' Y8 q( d" } Disallow:/temp/
3 I* K: L- Q8 H E- S/ |; B6 B/ ^! ?* u. J, R, @; |
其中*为通配符,可以代表任何一段代码。详细匹配可以看:8 W& T' ?/ g; x# b
' n3 ~3 O5 x" w+ r h( e
Seohu:主流搜索引擎都支持robots文件禁止收录机制。但如果有外部链接指向禁止收录的页面,这个页面还是可能出现在搜索结果中。其表现形式一般为导入链接的锚文字显示为标题和描述。本文写的很简单,如果还想深入了解,请在后面回帖留言。我会给大家解答。 |