robots文件主要是为了防止搜索引擎收录和索引特定的页面。减小复制内容的出现。如seohu.net,同时具有动态URL和静态URL,它们同时指向相同的页面。如果搜索引擎同时收录就会造成复制页面。
5 a/ }& [/ n: S/ ?0 i: d( k- O7 e
( H1 \. _% `6 K5 m1 x5 V& s 1.robots文件放在哪里
! A. S$ s5 h$ H* B U* O3 I& Q N8 }6 W1 p. @
robots文件放在网站根目录下,搜索引擎进入网站查看的第一个文件就是 robots文件。 robots文件是规定搜索引擎抓取范围的文件。如果我们希望网站某些页面不被抓取,只需要创建一个 robot.txt,写入禁止收录的页面并上传到网站根目录下。; I8 S9 n+ ^1 j) V1 I, D# A. T
3 M# a% K; J: K* }5 S6 A/ ] 2.robots文件怎么写
- O; y7 Q3 x. o- v- O$ w" |1 u* F) x8 S% a# W. l0 v
robots文件由记录组成,记录之间以空行分开,记录格式为:<域>可选空格><域值><可选空格>' o5 w+ Z$ G; B' G
4 D" V$ ^! }3 E 如: User-agent
W) S6 h6 v! v! _
) \1 Q! J. R7 z: p Disallow:/
; ]3 n* u) y) p q
" d( B: t$ c1 h' z8 t 这面的这个robots文件代表禁止任何搜索引擎抓取网站任何页面。只针对百度蜘蛛则用:
1 z6 j6 _2 d" {6 g
7 p7 Z/ w- `; q& L+ ?0 P( j User-agent:Baiduspider6 }# q+ h, c f; ]8 @! B: F- u
2 e& I( J- V8 j" L6 c
针对谷歌则用:- Y" E% c; l# i: B( t% z5 M
9 Z: z; C% ?, o& L4 u User-agentooglebot
/ }* r, r! b/ r" {5 C( y# ]+ u/ \& t8 s/ @8 l1 A1 G, J4 {
如下面的robots代表禁止百度抓取动态URL和文件夹temp下的文件4 ^1 j' K% ?4 L* a% Y
) z* P. N# ]- B8 ?; W# Z User-agent:Baiduspider4 L+ G0 o2 u$ S5 s& ]
) J! u' ?4 G& M. Y6 m: y$ p
Disallow?*
: N# ^! p. H% W$ I6 ?' B1 C l3 m# i3 c
Disallow:/temp/; F" w% M q$ r1 Y( C+ E
2 }4 O1 K7 i& M, {8 ~) d: i$ B( d
其中*为通配符,可以代表任何一段代码。详细匹配可以看:
$ g" `% z# g+ Y$ V" G+ r
; q% g' f2 i. V* W Seohu:主流搜索引擎都支持robots文件禁止收录机制。但如果有外部链接指向禁止收录的页面,这个页面还是可能出现在搜索结果中。其表现形式一般为导入链接的锚文字显示为标题和描述。本文写的很简单,如果还想深入了解,请在后面回帖留言。我会给大家解答。 |