热门需求search.zbj.com/task/
$ N# i+ S% R" ?4 o+ i; A/ Z( n7 F* F
搜索引擎三巨头支持的robots文件记录包括:
2 a1 P6 k# \& M& m" ^1 t% O# R* E9 T' U3 \1 H( L V" e' I
Disallow – 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:
" }/ N: J% h2 ?# m. j% R! {! }- d
' R- b5 I3 L$ a# p: U2 T& |$ m User-agent: *3 E6 j9 R2 J! s% j
! D3 E* `2 {' R8 E% Z9 \ Disallow: /
6 ~* E* F* e @8 f* z' l: _4 u4 p; r* a
Allow – 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:
+ U) l, ?6 D3 A7 t; x
/ O$ a0 \9 \5 I& d User-agent: *
( Y/ d/ h& y8 _# R: G3 p' V( C) p! i3 ]
Disallow: /ab/* C- J* U4 H U8 M
0 \0 ^+ C1 }- M7 | I" ^$ D/ |
Allow: /ab/cd
) r( b& U9 L+ Q) o
& _3 s+ a( ^7 Y; y$ y. H $通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:6 h' z6 K2 Y$ Z; g! p) }
m1 j" E& N9 }9 t0 I+ T: |4 | User-agent: *
2 J, f& L: A& k* F% m8 D8 Q0 S9 |3 E. P) f
Allow: .htm$
$ \% c* s% M( H8 F5 `/ @+ }, I+ S1 k' r9 }! a
*通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:1 B* O0 r8 a: o, {7 V
6 E$ t' F( c: G! g6 W
User-agent: *: D* L+ [1 m8 j( n4 o. f4 w; U: }
" a- i% W* v/ T: ]# f# {/ S Disallow: /*.htm1 g- k1 g' J1 z# a
o p) s& ?( r/ } u/ N. K6 ?
Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:
; q+ |! t6 U$ h& h* l2 [* U* m2 R: D' ]2 |: l& Y9 g
Sitemap: <sitemap_location>% J' J+ s4 Q* D+ v2 j5 e
3 \, G# Y, p i$ ]0 Q
三家都支持的Meta标签包括:6 f) Q& h5 ]+ j; Z1 R* R' {1 m
8 ^+ [7 e, `1 v4 I NOINDEX – 告诉蜘蛛不要索引某个网页。8 Z$ }9 I8 F/ X. b8 ]: t6 v
* o$ o& M7 d) y! U
NOFOLLOW – 告诉蜘蛛不要跟踪网页上的链接。) u) h% u7 t7 k9 s9 U# e" m; L9 v
8 e+ m6 D' h$ E6 h! A
NOSNIPPET – 告诉蜘蛛不要在搜索结果中显示说明文字。
3 Y4 I y4 t3 J% r; F, R2 K
# y; e+ @' L% g2 d3 n7 J# `: j) ^ NOARCHIVE – 告诉蜘蛛不要显示快照。
% Z+ o% n/ c' d1 }& [! D* V- g! A' ?" ~( _$ o( Y7 x
NOODP – 告诉蜘蛛不要使用开放目录中的标题和说明。+ x# u9 l9 ~+ S
. |) `$ Z% c H, I 上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。0 |, g; J; x7 `7 R
: X9 Q7 D4 A( O' q7 D% z7 ]
只有Google支持的Meta标签有:
# ?0 _; v' m7 D
' h/ H) S; A* P% P! ? UNAVAILABLE_AFTER – 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。* i. x; e9 V, X9 q3 L# p
7 F% W" E" R; l6 o9 ~$ I
NOIMAGEINDEX – 告诉蜘蛛不要索引页面上的图片。' p- r, q4 |, K3 E
# D2 U, m; J) t; t: K
NOTRANSLATE – 告诉蜘蛛不要翻译页面内容。% l8 E8 a3 Q$ u0 b- q
" h+ n- G) \: ]* g( E, H3 y- }
雅虎还支持Meta标签:
( Z3 c P. @: p6 x! x4 a8 A b* L. k% [1 Z
Crawl-Delay – 允许蜘蛛延时抓取的频率。
" ]1 s" M$ B" T f- \2 i, @4 V
, F/ g0 U- a1 ^; E5 k NOYDIR – 和NOODP标签相似,但是指雅虎目录,而不是开放目录。9 |5 c: E. ^- F. ]3 ?$ i
' g# o9 U( W5 ]) c0 x$ I
Robots-nocontent – 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。- B2 K" F& @6 ^# k
6 t( @) N$ x( ^1 ^ MSN还支持Meta标签:5 p y# p4 w& b1 |. C& u
1 ]: G! j. r* v3 G9 }0 `' P Crawl-Delay
% g3 N5 W; P" P3 z; B ` M' o0 [, H; [( e4 m% x# u' B: A; C2 O
另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。) Q( p! C& O$ X4 c4 D; n G- W8 ~
" W, g( C4 V% L2 ~ |