robots文件主要是为了防止搜索引擎收录和索引特定的页面。减小复制内容的出现。如seohu.net,同时具有动态URL和静态URL,它们同时指向相同的页面。如果搜索引擎同时收录就会造成复制页面。" r/ J7 l8 r( Q6 a
9 n( c4 b+ C" ?9 m( D- ^$ v 1.robots文件放在哪里
! q& R% @0 o! d6 e
" k8 \- a; T6 J) {& A robots文件放在网站根目录下,搜索引擎进入网站查看的第一个文件就是 robots文件。 robots文件是规定搜索引擎抓取范围的文件。如果我们希望网站某些页面不被抓取,只需要创建一个 robot.txt,写入禁止收录的页面并上传到网站根目录下。& H6 J! E! W, I, M2 D- c
5 Y" ^* ?# Z) _6 t8 Q1 V1 F; g
2.robots文件怎么写1 y2 B' D4 R/ y* w3 }
7 b% W- B( R* t) K# J8 ?2 \# T
robots文件由记录组成,记录之间以空行分开,记录格式为:<域>可选空格><域值><可选空格>/ `/ v; Z3 G" `1 o# m9 `$ d
0 l" z* n' D6 k0 L G 如: User-agent, m9 f! X; D2 r6 c
8 e( j& K' w6 ^* |% l, U
Disallow:/
8 V \2 k- X9 Z2 `0 j& X/ _4 W2 R! k/ H9 r( ?+ J, w
这面的这个robots文件代表禁止任何搜索引擎抓取网站任何页面。只针对百度蜘蛛则用:
7 K0 G/ C( A. c# _4 j: X f, C7 c+ [( E
User-agent:Baiduspider
$ Q4 F) b# M- C. B% t4 H) d4 H# h1 G7 D
针对谷歌则用: u8 K: }6 f, G+ C6 l! n1 y) ^8 c
' i& z1 ?2 M6 K, c
User-agentooglebot; X& `6 p8 W1 E8 {
4 \: ^% @% v+ W$ t' S
如下面的robots代表禁止百度抓取动态URL和文件夹temp下的文件- m& s; b7 K$ L1 k
" K) }: }' H) e3 q% w: a
User-agent:Baiduspider# q- s% X/ h8 _ q; @/ K
, k" o( ~& {- c4 y Disallow?*% }; h: P8 N5 B% h' L" R
\$ c8 S4 M6 l9 D+ `5 a+ F
Disallow:/temp/
; _5 r/ ?1 d/ T: y3 g1 ?" E# j0 y# N
其中*为通配符,可以代表任何一段代码。详细匹配可以看:
5 S' y- c8 f* ]$ @
; B9 A5 j6 B* ?1 Q$ _( B+ P3 A0 z Seohu:主流搜索引擎都支持robots文件禁止收录机制。但如果有外部链接指向禁止收录的页面,这个页面还是可能出现在搜索结果中。其表现形式一般为导入链接的锚文字显示为标题和描述。本文写的很简单,如果还想深入了解,请在后面回帖留言。我会给大家解答。 |