热门需求search.zbj.com/task/5 T) q; M; h* u% ?5 e
- G* n- P; N- F1 n Z 搜索引擎三巨头支持的robots文件记录包括:
; R. h) h v+ M& ~# O+ ]. E1 m5 r( G9 `7 j' P0 P: ]) a* A. O
Disallow – 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:% F$ D7 u* {& _# j" L7 x' Q% [
: n. r6 [- B. r0 B User-agent: *4 ~3 h9 A, ?' `7 N& ~6 v# W/ X
( R( @: v0 S; a! L. t& ?
Disallow: /5 k$ e1 M* I( R% n7 q! F h, O* `; X5 g
+ w: Z2 D3 r! W$ \5 p- ~ Allow – 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:
9 w( N0 Q# z; X' K% X/ M6 ~# q
, A& V6 U/ E2 |3 Q User-agent: *
4 a9 v0 c( o" I( D7 z2 w- J! U7 ]6 ^, a- X+ a- q! b) m
Disallow: /ab/. s+ V; S. `! y! K4 h9 l
w) m" ?' E( ^1 s% [' V4 i
Allow: /ab/cd
+ I9 r. m7 ?% s! X$ l# A
6 G# V, t9 b& ^ ?0 g $通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL: i( a* ^8 k) x' Q3 p
) O4 S+ c/ m3 L) R& q* t User-agent: *: O0 a X. t+ _$ a* L
' k9 L3 L$ I- E3 b7 s1 ?
Allow: .htm$
/ x+ J& } [% D3 M9 k
3 f" `% I* k/ x. I6 x *通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:, ]" A0 M Y" F' B1 p: N7 I/ ]8 R
6 D7 Z3 a( ~% W y
User-agent: *: e9 i9 o: ?8 C/ s: `7 x
7 b0 j/ s& q3 e( ~+ F$ `1 C
Disallow: /*.htm
E! L, C2 S! T8 W& q8 t% C. {' l% Y4 V2 u# R5 d
Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:+ I0 ^* J5 {- r& b6 F3 t8 X9 \" m
. Z: Y, |' H) |1 k
Sitemap: <sitemap_location>, f8 z; q3 y6 C# z. [' l2 N3 S7 Y- F
' r/ U6 V/ I: r( {) t' T0 `. ]
三家都支持的Meta标签包括:
6 k8 U# q) F" V$ N$ r9 @+ _. I' V
NOINDEX – 告诉蜘蛛不要索引某个网页。4 i5 U% }# f' C' N( @, e% I0 ~
: }8 q6 F6 J6 J- l: }
NOFOLLOW – 告诉蜘蛛不要跟踪网页上的链接。
- R3 h; T0 g% \7 x' W
! h: D- C2 {9 w& a NOSNIPPET – 告诉蜘蛛不要在搜索结果中显示说明文字。1 g n* j, [+ M4 l/ w
: m4 I3 B2 ~5 `8 R7 A NOARCHIVE – 告诉蜘蛛不要显示快照。( R. m/ {3 b' n; Y6 }
9 ]4 V; Y( n3 W# [) s* S NOODP – 告诉蜘蛛不要使用开放目录中的标题和说明。* c" c1 S4 W1 \5 C: ]
/ u0 A# ^7 X1 [+ j$ i% q 上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。
7 `2 w5 k0 Y$ b1 K: l" S; r& {) H+ W" e9 R V) z
只有Google支持的Meta标签有:; Q9 |3 M% X- b, \6 s
. I5 `& ~. w/ [5 P, J6 X
UNAVAILABLE_AFTER – 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。
# k5 p7 c( b& e% Z$ E9 G; z/ g, w8 `4 n* M, {1 `! p6 A# c
NOIMAGEINDEX – 告诉蜘蛛不要索引页面上的图片。1 P8 f0 e5 d( ~1 U) L8 a
# J4 i' ?' H, C2 {
NOTRANSLATE – 告诉蜘蛛不要翻译页面内容。
( y" D7 Z8 d" g8 Q+ k+ Q. k+ u/ k: E0 {9 d( Y$ Y' b9 p
雅虎还支持Meta标签:
) {. \# L$ R; ~8 ~7 O, N- x' b5 k1 u. k# v% ~/ a1 f
Crawl-Delay – 允许蜘蛛延时抓取的频率。: ~3 z# T$ x6 @( }. A8 v' B
8 ]8 u+ K+ q/ k: Y" x* Q/ U6 T
NOYDIR – 和NOODP标签相似,但是指雅虎目录,而不是开放目录。) f% D& T5 {+ `0 x# k
4 H' J# X' e, i7 ~/ g Robots-nocontent – 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。
" b9 X7 u6 W6 M' M. h4 J5 D8 P( f% X: c; t6 ~
MSN还支持Meta标签:
+ y! E1 z, \8 h- ^% ~: e+ W# K: p! d/ p! K! P( Z8 j/ ^& K% Y
Crawl-Delay# ?( M0 m* e4 I1 L
1 |8 x) e; ^9 `: P& ^& F3 l' @
另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。+ N5 F2 {* l! U* V: [
' V) f; P2 f( X/ v+ q4 ]/ l D" M
|