找回密码
 加入怎通
查看: 504|回复: 4

[站长八卦] robots文件详细参数解读

[复制链接]
a597499541 发表于 2016-10-25 18:41:37 | 显示全部楼层 |阅读模式
  热门需求search.zbj.com/task/5 T) q; M; h* u% ?5 e

- G* n- P; N- F1 n  Z  搜索引擎三巨头支持的robots文件记录包括:
; R. h) h  v+ M& ~# O+ ]. E1 m5 r( G9 `7 j' P0 P: ]) a* A. O
  Disallow – 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:% F$ D7 u* {& _# j" L7 x' Q% [

: n. r6 [- B. r0 B  User-agent: *4 ~3 h9 A, ?' `7 N& ~6 v# W/ X
( R( @: v0 S; a! L. t& ?
  Disallow: /5 k$ e1 M* I( R% n7 q! F  h, O* `; X5 g

+ w: Z2 D3 r! W$ \5 p- ~  Allow – 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:
9 w( N0 Q# z; X' K% X/ M6 ~# q
, A& V6 U/ E2 |3 Q  User-agent: *
4 a9 v0 c( o" I( D7 z2 w- J! U7 ]6 ^, a- X+ a- q! b) m
  Disallow: /ab/. s+ V; S. `! y! K4 h9 l
  w) m" ?' E( ^1 s% [' V4 i
  Allow: /ab/cd
+ I9 r. m7 ?% s! X$ l# A
6 G# V, t9 b& ^  ?0 g  $通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:  i( a* ^8 k) x' Q3 p

) O4 S+ c/ m3 L) R& q* t  User-agent: *: O0 a  X. t+ _$ a* L
' k9 L3 L$ I- E3 b7 s1 ?
  Allow: .htm$
/ x+ J& }  [% D3 M9 k
3 f" `% I* k/ x. I6 x  *通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:, ]" A0 M  Y" F' B1 p: N7 I/ ]8 R
6 D7 Z3 a( ~% W  y
  User-agent: *: e9 i9 o: ?8 C/ s: `7 x
7 b0 j/ s& q3 e( ~+ F$ `1 C
  Disallow: /*.htm
  E! L, C2 S! T8 W& q8 t% C. {' l% Y4 V2 u# R5 d
  Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:+ I0 ^* J5 {- r& b6 F3 t8 X9 \" m
. Z: Y, |' H) |1 k
  Sitemap: <sitemap_location>, f8 z; q3 y6 C# z. [' l2 N3 S7 Y- F
' r/ U6 V/ I: r( {) t' T0 `. ]
  三家都支持的Meta标签包括:
6 k8 U# q) F" V$ N$ r9 @+ _. I' V
  NOINDEX – 告诉蜘蛛不要索引某个网页。4 i5 U% }# f' C' N( @, e% I0 ~
: }8 q6 F6 J6 J- l: }
  NOFOLLOW – 告诉蜘蛛不要跟踪网页上的链接。
- R3 h; T0 g% \7 x' W
! h: D- C2 {9 w& a  NOSNIPPET – 告诉蜘蛛不要在搜索结果中显示说明文字。1 g  n* j, [+ M4 l/ w

: m4 I3 B2 ~5 `8 R7 A  NOARCHIVE – 告诉蜘蛛不要显示快照。( R. m/ {3 b' n; Y6 }

9 ]4 V; Y( n3 W# [) s* S  NOODP – 告诉蜘蛛不要使用开放目录中的标题和说明。* c" c1 S4 W1 \5 C: ]

/ u0 A# ^7 X1 [+ j$ i% q  上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。
7 `2 w5 k0 Y$ b1 K: l" S; r& {) H+ W" e9 R  V) z
  只有Google支持的Meta标签有:; Q9 |3 M% X- b, \6 s
. I5 `& ~. w/ [5 P, J6 X
  UNAVAILABLE_AFTER – 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。
# k5 p7 c( b& e% Z$ E9 G; z/ g, w8 `4 n* M, {1 `! p6 A# c
  NOIMAGEINDEX – 告诉蜘蛛不要索引页面上的图片。1 P8 f0 e5 d( ~1 U) L8 a
# J4 i' ?' H, C2 {
  NOTRANSLATE – 告诉蜘蛛不要翻译页面内容。
( y" D7 Z8 d" g8 Q+ k+ Q. k+ u/ k: E0 {9 d( Y$ Y' b9 p
  雅虎还支持Meta标签:
) {. \# L$ R; ~8 ~7 O, N- x' b5 k1 u. k# v% ~/ a1 f
  Crawl-Delay – 允许蜘蛛延时抓取的频率。: ~3 z# T$ x6 @( }. A8 v' B
8 ]8 u+ K+ q/ k: Y" x* Q/ U6 T
  NOYDIR – 和NOODP标签相似,但是指雅虎目录,而不是开放目录。) f% D& T5 {+ `0 x# k

4 H' J# X' e, i7 ~/ g  Robots-nocontent – 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。
" b9 X7 u6 W6 M' M. h4 J5 D8 P( f% X: c; t6 ~
  MSN还支持Meta标签:
+ y! E1 z, \8 h- ^% ~: e+ W# K: p! d/ p! K! P( Z8 j/ ^& K% Y
  Crawl-Delay# ?( M0 m* e4 I1 L
1 |8 x) e; ^9 `: P& ^& F3 l' @
  另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。+ N5 F2 {* l! U* V: [
' V) f; P2 f( X/ v+ q4 ]/ l  D" M
回复

使用道具 举报

613369091 发表于 2016-10-25 18:41:50 | 显示全部楼层
看到0回复的主题马上点开,粘贴复制要一气呵成,这就像开车,要油离配合。最后要有坚强的抗压能力。
回复 支持 反对

使用道具 举报

夏爱莲 发表于 2016-10-26 00:08:40 | 显示全部楼层
  SEO大神带你入门学习群 327371919 + K0 ~' e8 b# R; K/ l8 T
+ ]( P# k# m  z8 J. E, k
【1】每天都有最新免费SEO基础课程学习!3 S( U6 k! K6 O" x8 ~
【2】SEO高手群内指导解答问题、分析网站!& O" B+ u% I  C' h0 ^2 a
【3】群内分享SEO教程、全套wordpress建站教程和织梦dedecms教程!
0 o1 |1 c( X& E& {; D: R1 o+ W& L9 I+ G0 A+ _
  SEO大神带你入门学习群 327371919
回复 支持 反对

使用道具 举报

劲烈 发表于 2026-01-23 21:09:01 | 显示全部楼层
这个思路很新颖,打开了新世界的大门,谢谢分享
回复 支持 反对

使用道具 举报

yinningchao123 发表于 2026-02-04 22:41:35 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-25 11:59 , Processed in 0.064343 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表