找回密码
 加入怎通
查看: 501|回复: 4

[站长八卦] robots文件详细参数解读

[复制链接]
a597499541 发表于 2016-10-25 18:41:37 | 显示全部楼层 |阅读模式
  热门需求search.zbj.com/task/
9 n. I; s6 A" r# [% j" v+ X+ i  L9 w. [
  搜索引擎三巨头支持的robots文件记录包括:- M; X+ ]; C2 z4 i0 z& D. d
* D: t) t7 ?0 E
  Disallow – 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:+ p3 I+ i- b( E$ l4 b1 |
% ?) X6 K$ e  V; U: p
  User-agent: *
, u" w* p! h& Q9 e2 A0 I, s; U& |$ r$ ]. Q* c7 q- r
  Disallow: /' o5 V5 y( ^2 v  S* @. @
9 ]$ G' X6 p' {4 R' R; R. v3 r
  Allow – 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:
% V4 R" ~8 T- K7 M- h- O6 F& Y# a
  User-agent: *
8 ?! M7 M! l: p" u6 p
5 V4 C4 ~2 q1 D0 Z; }$ p& l  Disallow: /ab/& W/ A1 [3 v# I% p! [5 ^' w
1 G" C' U6 v! L, o$ D, u/ R* |, [5 P# W
  Allow: /ab/cd
1 s; ?5 X! M- l! K! O9 i: y% E) m: V
  $通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:( L% r7 W* Q  U/ @" l+ J# ?; a

' b* Y0 `: t5 q2 j  User-agent: *
; l6 }. V6 J3 `& P9 x% i" s; t* @0 T" K; I
  Allow: .htm$9 k8 m3 ?3 y# e; V
5 ]8 D6 O- u" x8 L+ X0 ~9 O$ j- t4 K
  *通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:
- M( f7 ?# [( v
' ^0 A  Z/ I& S6 ]; d# a& {: n  User-agent: *
6 P: S( ]$ X* k  ~- b
& u& j" t5 ]# j2 M/ Q5 m, E% X  Disallow: /*.htm9 A1 U. K4 j. e, @0 c4 l+ G! L

$ [/ {! R- b5 [0 `. P% t% f  Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:
" ]2 S, n6 L! k/ C- w9 Y! |, J9 l9 \2 O7 a, l8 |$ d
  Sitemap: <sitemap_location>: h( S- `! q/ `" H

. n$ W+ |8 B3 x  三家都支持的Meta标签包括:* @% N' P; {  W; T* W2 [* E, U- j

, o3 ]; M; J/ l4 a0 K) I  NOINDEX – 告诉蜘蛛不要索引某个网页。
5 `/ R2 O  U6 c- P- V) J# J/ i: b4 d+ [* k
  NOFOLLOW – 告诉蜘蛛不要跟踪网页上的链接。1 Z& f) j- D  Z4 {7 Q

, z. P) W& X0 T4 [0 K  NOSNIPPET – 告诉蜘蛛不要在搜索结果中显示说明文字。0 C7 b8 f2 `9 d
' V9 y+ T# W+ F- w3 \' K
  NOARCHIVE – 告诉蜘蛛不要显示快照。) j8 ^4 i, v! g2 s6 y. o. @5 o
9 D4 W1 j0 ?( F/ x! d7 o
  NOODP – 告诉蜘蛛不要使用开放目录中的标题和说明。7 `5 X% k5 a  W" X

& Y& }  }7 G% b4 x$ s  n* o  Q  上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。
9 @+ M2 l7 @3 d  C! M" ?  u9 ~
# d$ R, X! [$ h) P& T+ ~1 X& C- ~  只有Google支持的Meta标签有:
$ H$ o9 y2 \1 |4 I* w. y& a6 o7 [/ r( v% y
  UNAVAILABLE_AFTER – 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。
' b* J! ~6 j# ]2 q' A; ~
( V  d; S4 y/ _( [* j  NOIMAGEINDEX – 告诉蜘蛛不要索引页面上的图片。
4 f; g: d) M5 _: ^! F5 r
9 q, R, R5 G$ t& ]" ^6 G  NOTRANSLATE – 告诉蜘蛛不要翻译页面内容。
2 e( c) W, }$ ^- M  @0 l  z
) }6 W. p, B3 v4 @  A+ ~- u+ i" u. r4 U  雅虎还支持Meta标签:
$ O7 r0 t9 c! u/ ]7 @' ~5 L' T7 R4 ^7 b' t, T
  Crawl-Delay – 允许蜘蛛延时抓取的频率。
" Y. a1 E! ~9 Z! |
( n+ d7 M, P$ L" i7 ~) P  NOYDIR – 和NOODP标签相似,但是指雅虎目录,而不是开放目录。
4 F$ T6 B! Z. g. d2 \$ \9 R1 _5 H1 R/ b6 c6 P
  Robots-nocontent – 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。/ O3 ^! e% s9 W1 R5 g

' p- n  A4 a+ U. H  MSN还支持Meta标签:
; h, E  v( M$ I, J' d
" j: x) W1 g  T# p3 i( t3 z- u  Crawl-Delay! t3 n: _: ]! c
$ S! D" Y; e" c$ w9 F
  另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。
4 a6 v! Z& h* W. Q$ p
; K( {1 F3 U! z2 b( b7 z$ L5 K$ I
回复

使用道具 举报

613369091 发表于 2016-10-25 18:41:50 | 显示全部楼层
看到0回复的主题马上点开,粘贴复制要一气呵成,这就像开车,要油离配合。最后要有坚强的抗压能力。
回复 支持 反对

使用道具 举报

夏爱莲 发表于 2016-10-26 00:08:40 | 显示全部楼层
  SEO大神带你入门学习群 327371919
! c+ b7 D9 ~, l! J6 ~* n2 }' x
4 u4 W3 z& h6 H  o0 }# `# a 【1】每天都有最新免费SEO基础课程学习!
8 s9 `# @4 a: C$ a6 n 【2】SEO高手群内指导解答问题、分析网站!  q# Q( I4 G5 _' u8 O
【3】群内分享SEO教程、全套wordpress建站教程和织梦dedecms教程!! Y* P7 @" L. Q

" v- B- J$ s9 L6 l% r9 k  SEO大神带你入门学习群 327371919
回复 支持 反对

使用道具 举报

劲烈 发表于 2026-01-23 21:09:01 | 显示全部楼层
这个思路很新颖,打开了新世界的大门,谢谢分享
回复 支持 反对

使用道具 举报

yinningchao123 发表于 2026-02-04 22:41:35 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-13 19:31 , Processed in 0.317256 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表