robots文件主要是为了防止搜索引擎收录和索引特定的页面。减小复制内容的出现。如seohu.net,同时具有动态URL和静态URL,它们同时指向相同的页面。如果搜索引擎同时收录就会造成复制页面。
6 I4 W5 t0 n2 x5 q7 J% H: M/ q$ |: s: D7 D
1.robots文件放在哪里
8 A0 k3 j* l8 ?+ d3 K
; V/ r- l& M4 h" c& y5 i# d2 l robots文件放在网站根目录下,搜索引擎进入网站查看的第一个文件就是 robots文件。 robots文件是规定搜索引擎抓取范围的文件。如果我们希望网站某些页面不被抓取,只需要创建一个 robot.txt,写入禁止收录的页面并上传到网站根目录下。
7 k" q3 \9 V7 ~ g" d2 t" W
$ S- e2 R0 l+ p' C9 N 2.robots文件怎么写
9 {3 I& m7 l: f8 x" K; C3 { ?, U5 I4 w4 {9 |/ W
robots文件由记录组成,记录之间以空行分开,记录格式为:<域>可选空格><域值><可选空格>$ Z* S7 l$ y" F- i3 U. S
- }+ v L2 W/ g8 w k' Y% p3 }' S 如: User-agent& m& P& X0 `4 C ^4 _. X+ @
; b, c- E# }, U
Disallow:/
. p! Y% u9 ^2 a
; V4 G2 l$ Q3 K4 H 这面的这个robots文件代表禁止任何搜索引擎抓取网站任何页面。只针对百度蜘蛛则用:, g* r5 s7 Q6 F$ R
' J# V+ p9 S3 H2 u
User-agent:Baiduspider0 q& o( R4 V R
1 S' Z8 g2 A# F+ w B) K
针对谷歌则用:
. {0 u+ v4 L1 s3 m7 M0 s0 t
& S6 Z' O! a$ n User-agentooglebot
5 x& W+ M0 `5 U3 K! R+ ?. e
! F, z+ R. f4 H$ S8 ~ J 如下面的robots代表禁止百度抓取动态URL和文件夹temp下的文件! r8 v" o7 c- ]% b1 B% F
: C, A6 g6 A) u M8 i User-agent:Baiduspider: c" m0 U( r' c6 f( m$ L
( V% o: G b4 ]. a) y; J P. M
Disallow?*
& D$ ~, ]( z) J( K& p, d* A) O- \' x1 S3 _
Disallow:/temp/
6 L( N3 n n1 P; H) x$ G# Z% n# |5 _( m& k0 Y) V+ |
其中*为通配符,可以代表任何一段代码。详细匹配可以看:
; G+ J! o/ w5 {" ^
" d% D+ Y1 w# k Seohu:主流搜索引擎都支持robots文件禁止收录机制。但如果有外部链接指向禁止收录的页面,这个页面还是可能出现在搜索结果中。其表现形式一般为导入链接的锚文字显示为标题和描述。本文写的很简单,如果还想深入了解,请在后面回帖留言。我会给大家解答。 |