什么是robots以及robots.txt的写法

爱的呼唤 发表于 2012-09-04 16:14:02

何为robots文件？
robots.txt是一个协议文件，当查找引擎抓取你的网站的时分，首先会拜访这个文件，以来确定哪些可以抓取、哪些不可以抓取。但正如之前所说，这个文件，是协议不是命令，现实你也无法命令查找引擎，因而有时分有的查找引擎恪守的不是很严格，并且robots.txt更新后，查找引擎的反响也需求必定工夫。
robots.txt不存在的情况下，是默许对查找引擎无任何限制。若想对蜘蛛有所限制，则需求写robots的规矩。
User-Agent: 规矩限制的查找引擎。
Disallow:不允许收录的页面地址。
Allow:期望被查找引擎拜访的页面地址。
细表明为，User-agent: *，表明此规矩对一切查找引擎均有用。
User-agent: Baiduspider，此规矩仅对百度有用。
User-agent: Googlebot，此规矩仅对google有用。
Disallow: /a/，此规矩作用是制止爬寻a目录下面的一切文件。
Disallow: /a/*.htm，此规矩作用是制止爬寻a目录下面的一切htm为后缀结束的文件。
Disallow: /*?* 制止拜访网站中一切的动态页面。
Disallow: /*.jpg$ 制止抓取网页一切的.jpg格局的图片。
还，我们也可以指定网站只被某一种查找引擎抓取。
User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
这个规矩作用是只允许百度爬取此网站。
最终要提示的是，有时分当你屏蔽了你的网页，可是若是你的网页被其它网站提及，那么你的页面也有能够出现在百度的查找成果页面中。可是你的页面不会被百度索引与抓取，百度显示的是另外页面上对你网站的描绘，有些类似于以前大家常说的灵异快照。胆结石最好治疗方法http://www.boulong.cn/

jingzhilian 发表于 2026-01-23 13:12:19

楼主太厉害了，整理得这么详细，必须支持

大奔01 发表于 2026-03-15 08:39:07

分析得很透彻，很多细节都说到点子上了～

二狗发表于 2026-03-18 02:49:29

学习到了，之前一直没注意过这个点，受教了

页: [1]

真牛社区's Archiver

什么是robots以及robots.txt的写法