找回密码
 加入怎通
查看: 521|回复: 7

[站长八卦] robots文件详细参数解读

[复制链接]
a597499541 发表于 2016-10-25 18:41:37 | 显示全部楼层 |阅读模式
  热门需求search.zbj.com/task/
$ N# i+ S% R" ?4 o+ i; A/ Z( n7 F* F
  搜索引擎三巨头支持的robots文件记录包括:
2 a1 P6 k# \& M& m" ^1 t% O# R* E9 T' U3 \1 H( L  V" e' I
  Disallow – 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:
" }/ N: J% h2 ?# m. j% R! {! }- d
' R- b5 I3 L$ a# p: U2 T& |$ m  User-agent: *3 E6 j9 R2 J! s% j

! D3 E* `2 {' R8 E% Z9 \  Disallow: /
6 ~* E* F* e  @8 f* z' l: _4 u4 p; r* a
  Allow – 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:
+ U) l, ?6 D3 A7 t; x
/ O$ a0 \9 \5 I& d  User-agent: *
( Y/ d/ h& y8 _# R: G3 p' V( C) p! i3 ]
  Disallow: /ab/* C- J* U4 H  U8 M
0 \0 ^+ C1 }- M7 |  I" ^$ D/ |
  Allow: /ab/cd
) r( b& U9 L+ Q) o
& _3 s+ a( ^7 Y; y$ y. H  $通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:6 h' z6 K2 Y$ Z; g! p) }

  m1 j" E& N9 }9 t0 I+ T: |4 |  User-agent: *
2 J, f& L: A& k* F% m8 D8 Q0 S9 |3 E. P) f
  Allow: .htm$
$ \% c* s% M( H8 F5 `/ @+ }, I+ S1 k' r9 }! a
  *通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:1 B* O0 r8 a: o, {7 V
6 E$ t' F( c: G! g6 W
  User-agent: *: D* L+ [1 m8 j( n4 o. f4 w; U: }

" a- i% W* v/ T: ]# f# {/ S  Disallow: /*.htm1 g- k1 g' J1 z# a
  o  p) s& ?( r/ }  u/ N. K6 ?
  Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:
; q+ |! t6 U$ h& h* l2 [* U* m2 R: D' ]2 |: l& Y9 g
  Sitemap: <sitemap_location>% J' J+ s4 Q* D+ v2 j5 e
3 \, G# Y, p  i$ ]0 Q
  三家都支持的Meta标签包括:6 f) Q& h5 ]+ j; Z1 R* R' {1 m

8 ^+ [7 e, `1 v4 I  NOINDEX – 告诉蜘蛛不要索引某个网页。8 Z$ }9 I8 F/ X. b8 ]: t6 v
* o$ o& M7 d) y! U
  NOFOLLOW – 告诉蜘蛛不要跟踪网页上的链接。) u) h% u7 t7 k9 s9 U# e" m; L9 v
8 e+ m6 D' h$ E6 h! A
  NOSNIPPET – 告诉蜘蛛不要在搜索结果中显示说明文字。
3 Y4 I  y4 t3 J% r; F, R2 K
# y; e+ @' L% g2 d3 n7 J# `: j) ^  NOARCHIVE – 告诉蜘蛛不要显示快照。
% Z+ o% n/ c' d1 }& [! D* V- g! A' ?" ~( _$ o( Y7 x
  NOODP – 告诉蜘蛛不要使用开放目录中的标题和说明。+ x# u9 l9 ~+ S

. |) `$ Z% c  H, I  上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。0 |, g; J; x7 `7 R
: X9 Q7 D4 A( O' q7 D% z7 ]
  只有Google支持的Meta标签有:
# ?0 _; v' m7 D
' h/ H) S; A* P% P! ?  UNAVAILABLE_AFTER – 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。* i. x; e9 V, X9 q3 L# p
7 F% W" E" R; l6 o9 ~$ I
  NOIMAGEINDEX – 告诉蜘蛛不要索引页面上的图片。' p- r, q4 |, K3 E
# D2 U, m; J) t; t: K
  NOTRANSLATE – 告诉蜘蛛不要翻译页面内容。% l8 E8 a3 Q$ u0 b- q
" h+ n- G) \: ]* g( E, H3 y- }
  雅虎还支持Meta标签:
( Z3 c  P. @: p6 x! x4 a8 A  b* L. k% [1 Z
  Crawl-Delay – 允许蜘蛛延时抓取的频率。
" ]1 s" M$ B" T  f- \2 i, @4 V
, F/ g0 U- a1 ^; E5 k  NOYDIR – 和NOODP标签相似,但是指雅虎目录,而不是开放目录。9 |5 c: E. ^- F. ]3 ?$ i
' g# o9 U( W5 ]) c0 x$ I
  Robots-nocontent – 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。- B2 K" F& @6 ^# k

6 t( @) N$ x( ^1 ^  MSN还支持Meta标签:5 p  y# p4 w& b1 |. C& u

1 ]: G! j. r* v3 G9 }0 `' P  Crawl-Delay
% g3 N5 W; P" P3 z; B  `  M' o0 [, H; [( e4 m% x# u' B: A; C2 O
  另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。) Q( p! C& O$ X4 c4 D; n  G- W8 ~

" W, g( C4 V% L2 ~
回复

使用道具 举报

613369091 发表于 2016-10-25 18:41:50 | 显示全部楼层
看到0回复的主题马上点开,粘贴复制要一气呵成,这就像开车,要油离配合。最后要有坚强的抗压能力。
回复 支持 反对

使用道具 举报

夏爱莲 发表于 2016-10-26 00:08:40 | 显示全部楼层
  SEO大神带你入门学习群 327371919 9 E' P& \0 W& r0 A! i9 m: a
, q7 n2 h# o+ U) }
【1】每天都有最新免费SEO基础课程学习!
$ h- T: p8 e" A- Z9 v; v 【2】SEO高手群内指导解答问题、分析网站!) k7 Z$ {" D3 e9 ]6 A" t1 G0 s: D
【3】群内分享SEO教程、全套wordpress建站教程和织梦dedecms教程!
- W# M8 ]& X6 i6 [" }2 v
8 _+ Q' y* K# k4 c, z% X  SEO大神带你入门学习群 327371919
回复 支持 反对

使用道具 举报

劲烈 发表于 2026-01-23 21:09:01 | 显示全部楼层
这个思路很新颖,打开了新世界的大门,谢谢分享
回复 支持 反对

使用道具 举报

yinningchao123 发表于 2026-02-04 22:41:35 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

siyimu 发表于 2026-05-01 07:12:10 | 显示全部楼层
楼主辛苦了,整理这么多内容,必须点赞收藏
回复 支持 反对

使用道具 举报

嘿嘿 发表于 2026-05-05 20:24:12 | 显示全部楼层
完全赞同,我也是这么认为的,英雄所见略同~
回复 支持 反对

使用道具 举报

gejiandi9989 发表于 2026-06-04 08:08:39 | 显示全部楼层
刚好遇到类似问题,看完这个帖子心里有底了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-6-14 11:21 , Processed in 0.029827 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表