找回密码
 加入怎通
查看: 446|回复: 3

[站长八卦] 什么是robots以及robots.txt的写法

[复制链接]
爱的呼唤 发表于 2012-09-04 16:14:02 | 显示全部楼层 |阅读模式
何为robots文件?
$ ]8 T6 q" N# `4 }# xrobots.txt是一个协议文件,当查找引擎抓取你的网站的时分,首先会拜访这个文件,以来确定哪些可以抓取、哪些不可以抓取。但正如之前所说,这个文件,是协议不是命令,现实你也无法命令查找引擎,因而有时分有的查找引擎恪守的不是很严格,并且robots.txt更新后,查找引擎的反响也需求必定工夫。
9 v% y* s6 r: Y! h/ crobots.txt不存在的情况下,是默许对查找引擎无任何限制。若想对蜘蛛有所限制,则需求写robots的规矩。% x4 T4 r/ j) _$ H0 m2 W& P
User-Agent: 规矩限制的查找引擎。( L5 j0 C* e3 @2 b$ l
Disallow:不允许收录的页面地址。
2 N" j7 {8 s; Q2 {Allow:期望被查找引擎拜访的页面地址。+ L. M& j! s. l  i$ E$ }$ E
细表明为,User-agent: *,表明此规矩对一切查找引擎均有用。
5 X1 ~6 ^/ _9 S" j# m2 gUser-agent: Baiduspider,此规矩仅对百度有用。
$ C3 f2 @9 x! eUser-agent: Googlebot,此规矩仅对google有用。
. h6 Z' e: ]) X9 H# _Disallow: /a/,此规矩作用是制止爬寻a目录下面的一切文件。$ }* j: }1 t4 r2 E- m
Disallow: /a/*.htm,此规矩作用是制止爬寻a目录下面的一切htm为后缀结束的文件。
1 T, ]  o$ S, Y3 `+ u5 `Disallow: /*?* 制止拜访网站中一切的动态页面。7 a8 f6 f) E1 S% t& v
Disallow: /*.jpg$ 制止抓取网页一切的.jpg格局的图片。. f! H# }. W7 X/ a2 y: [/ s
还,我们也可以指定网站只被某一种查找引擎抓取。
$ d4 N7 W5 Q+ x5 E; MUser-agent: Baiduspider
7 v, b; t* W9 ^8 s) P) L5 R9 lAllow: /: R, h3 Q' m" W
User-agent: *
7 e6 q8 Q1 ]% o1 H" X  DDisallow: /- r" v# n$ F! r& @+ ^
这个规矩作用是只允许百度爬取此网站。- D$ e( q. V4 N! \9 U% X
最终要提示的是,有时分当你屏蔽了你的网页,可是若是你的网页被其它网站提及,那么你的页面也有能够出现在百度的查找成果页面中。可是你的页面不会被百度索引与抓取,百度显示的是另外页面上对你网站的描绘,有些类似于以前大家常说的灵异快照。胆结石最好治疗方法http://www.boulong.cn/
/ v, R4 O: A2 U  H& k1 f9 K  T  X) \/ q: O4 ~/ v, w' W
回复

使用道具 举报

jingzhilian 发表于 2026-01-23 13:12:19 | 显示全部楼层
楼主太厉害了,整理得这么详细,必须支持
回复 支持 反对

使用道具 举报

大奔01 发表于 2026-03-15 08:39:07 | 显示全部楼层
分析得很透彻,很多细节都说到点子上了~
回复 支持 反对

使用道具 举报

二狗 发表于 2026-03-18 02:49:29 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-5-1 00:38 , Processed in 0.343736 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表