robots文件主要是为了防止搜索引擎收录和索引特定的页面。减小复制内容的出现。如seohu.net,同时具有动态URL和静态URL,它们同时指向相同的页面。如果搜索引擎同时收录就会造成复制页面。+ L+ z& c" q6 R) t8 _5 I( U
1 M3 @; B! g/ l* N2 b; Z. b d
1.robots文件放在哪里, ]' D* T, w4 Q- P
" C) {8 D3 N T& }8 d" {+ X robots文件放在网站根目录下,搜索引擎进入网站查看的第一个文件就是 robots文件。 robots文件是规定搜索引擎抓取范围的文件。如果我们希望网站某些页面不被抓取,只需要创建一个 robot.txt,写入禁止收录的页面并上传到网站根目录下。0 T9 w* A, f6 J7 ^; G
9 X; b* D& ?& J* O1 \
2.robots文件怎么写
2 h( S$ n9 m. c# X4 s
9 r. ]7 f0 M1 w& z. V3 b9 X robots文件由记录组成,记录之间以空行分开,记录格式为:<域>可选空格><域值><可选空格>0 X; ]5 p7 z1 Q9 h
1 `7 s2 u. Y9 j- ]: ^: B
如: User-agent# B; D7 B1 G8 R+ Z* [4 f
% C; ~: ~' h$ s5 T) D% C6 g
Disallow:/( X. h6 J1 E f1 n, M
% i6 l6 _9 H6 R+ ^: L8 X* i- M2 b; R4 I 这面的这个robots文件代表禁止任何搜索引擎抓取网站任何页面。只针对百度蜘蛛则用:, D( c! i# `: `
+ l3 s' X9 L% W" y( l User-agent:Baiduspider
`& J$ `0 A/ @% X. i7 x2 l3 y1 A4 }1 W
针对谷歌则用:
! F( K5 W. q& `! f5 Z* D: d- L( X9 X0 Z2 X6 b
User-agentooglebot
+ Y8 C" L1 D* o7 N* o5 C) }: D5 q- X+ U: U* x
如下面的robots代表禁止百度抓取动态URL和文件夹temp下的文件# Q; x. X- q3 z# C- \5 [
4 _$ T$ _8 n' L1 h0 n1 A/ Z0 ~ User-agent:Baiduspider' K- f. `7 S. e" |, r) U" G- F, B
* t) k% T3 s3 ?6 j& J* w7 M
Disallow?*
0 C5 F# |5 | L; F( H0 i3 G. A0 s% e4 v4 _) k% p
Disallow:/temp/* t$ w& [9 |9 e; M) d& f& t/ ~/ k7 Y
. }4 [# c) t9 q
其中*为通配符,可以代表任何一段代码。详细匹配可以看:) ^3 z7 k* r6 Y- R. f; i$ O
- @& E3 H1 E" J8 G: t U Seohu:主流搜索引擎都支持robots文件禁止收录机制。但如果有外部链接指向禁止收录的页面,这个页面还是可能出现在搜索结果中。其表现形式一般为导入链接的锚文字显示为标题和描述。本文写的很简单,如果还想深入了解,请在后面回帖留言。我会给大家解答。 |