热门需求search.zbj.com/task/8 i2 O# Z$ ?5 T+ m* F
0 T; {' C2 }6 }$ k4 O# ~
搜索引擎三巨头支持的robots文件记录包括:
5 T' y8 f \; X. Z, U
( H( B* V+ [* A' e Disallow – 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:
* s6 n) C) J* U* N
& u8 ^1 C# K& v8 |/ a! W+ p User-agent: *, A4 t& u" M {9 b: O/ a& X
9 i+ @6 U8 ?; a- O& m
Disallow: /
_' P) _& I# _+ p& c; P. f9 \5 ~4 d1 z0 y) n( e7 R7 q5 {6 Y
Allow – 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:0 ?* ^' W6 v3 C9 y0 O! V
& t* }/ ^% }7 M4 {7 l0 e User-agent: *
: j+ l4 q9 Y0 k2 C8 X
! b' I! q8 G! x5 L u. I Disallow: /ab/
& p" y1 _$ c5 |- r1 \" G0 O$ s/ j' [) C& d2 j5 s- ]
Allow: /ab/cd. ^. E, {) x2 z. [$ ^
- N9 m9 a( p0 X: f
$通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:
& D* ^* [% e* \6 u$ f) [6 f- N1 I6 c+ W. ~* s
User-agent: *
; L* z7 c) h( Q4 P5 V
9 d9 s/ x/ ^5 \0 J1 T Allow: .htm$
0 Q8 e8 g/ Q3 l6 s' a n: H1 ] Q4 G4 w: ~% x4 ~3 c( n
*通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:
6 j* q0 a# h1 e2 A- x* v$ v7 C& H; V& j
User-agent: *2 x7 ]" u: O! u5 a5 v4 d* }2 c
5 H$ G. C" f3 W( } Disallow: /*.htm
3 R: Z- ]- X# g" X- V
% O6 ]- |& Y' X* u% f Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:7 p6 N; }: Q. z, x4 E/ u
+ W) e/ D/ R; I* f& ^
Sitemap: <sitemap_location>
/ |; [2 N/ F7 }3 ~% k
( P2 Y4 Q& K( l! ~5 K: u1 i+ I 三家都支持的Meta标签包括:
& H: L# U b# @+ Z$ z0 Y% z( z! _8 }1 }( `* a2 R5 n
NOINDEX – 告诉蜘蛛不要索引某个网页。% S" M# ~ K2 `
' @! U; h5 h( x; _. |7 f0 W
NOFOLLOW – 告诉蜘蛛不要跟踪网页上的链接。
+ _# m$ T6 K0 a
0 W5 |( c" Y9 l, n* o8 g NOSNIPPET – 告诉蜘蛛不要在搜索结果中显示说明文字。6 ?- Z9 W6 V# j4 m1 s; C0 _$ }
0 a5 p" R/ b8 _) x" |# L$ q NOARCHIVE – 告诉蜘蛛不要显示快照。* v1 \9 u( I# S, ~, s* v/ x" k( V* a
3 Z1 [. N! d) w0 s4 t NOODP – 告诉蜘蛛不要使用开放目录中的标题和说明。- R5 F5 o9 l' Z5 o
- O& x: o% ?4 x6 \: B+ ^
上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。9 |( J2 {6 ]3 o- j# o4 X6 }' \
4 V/ N! H1 P2 X9 J2 k4 S
只有Google支持的Meta标签有:
& X8 y1 m) r3 ]' Q9 l! y( k! H* y
UNAVAILABLE_AFTER – 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。
1 R7 a" o( ]& P6 g
$ A) w% g6 P9 B }+ E NOIMAGEINDEX – 告诉蜘蛛不要索引页面上的图片。8 [0 V% K8 J; y3 H0 C- c7 e6 K7 U: B
4 O% V" ~+ a! H7 B" ^3 x
NOTRANSLATE – 告诉蜘蛛不要翻译页面内容。$ ~+ ^+ u0 |0 L' l" X
) D: O$ i' o" M( B3 R
雅虎还支持Meta标签:
2 i0 U! A* Q, b! V4 _- W# [+ Y0 Y+ s' n4 x9 G! R
Crawl-Delay – 允许蜘蛛延时抓取的频率。, |- Z7 m$ d- @* y4 i* m0 I8 h
' ~9 ]+ a0 G: Y
NOYDIR – 和NOODP标签相似,但是指雅虎目录,而不是开放目录。% u, `' R3 P* @: B
" N; I L) W& A
Robots-nocontent – 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。
. j8 |/ G0 t% ]0 \8 x: f3 c
2 U+ x6 E2 c G6 y0 s l MSN还支持Meta标签:; r# ]4 {. D* q0 E- t
( B7 o9 V! ]. g Crawl-Delay1 |8 }; g4 n9 ^- C J
7 D- r# e6 ^, H% D- k
另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。
5 @& }8 ]2 d3 g K& B
" H2 T+ o( T! f |