何为robots文件?" {: `% M9 f: B+ U1 d2 v
robots.txt是一个协议文件,当查找引擎抓取你的网站的时分,首先会拜访这个文件,以来确定哪些可以抓取、哪些不可以抓取。但正如之前所说,这个文件,是协议不是命令,现实你也无法命令查找引擎,因而有时分有的查找引擎恪守的不是很严格,并且robots.txt更新后,查找引擎的反响也需求必定工夫。
: g: k* y: [+ S5 U( ?) {robots.txt不存在的情况下,是默许对查找引擎无任何限制。若想对蜘蛛有所限制,则需求写robots的规矩。
' q* v) o/ ^; @6 p/ i- t VUser-Agent: 规矩限制的查找引擎。
1 K, J# z. R+ m% y: J. A4 qDisallow:不允许收录的页面地址。. L4 w5 g7 P& E( f
Allow:期望被查找引擎拜访的页面地址。
F7 S0 [) F0 k( K% `) O; I细表明为,User-agent: *,表明此规矩对一切查找引擎均有用。
* j, H; p, B* @$ G! wUser-agent: Baiduspider,此规矩仅对百度有用。: _$ l; F9 ~9 s+ @
User-agent: Googlebot,此规矩仅对google有用。1 L8 Y1 j0 b% _ z
Disallow: /a/,此规矩作用是制止爬寻a目录下面的一切文件。
( F0 q% D3 ~ \" W6 X: e/ ^9 ZDisallow: /a/*.htm,此规矩作用是制止爬寻a目录下面的一切htm为后缀结束的文件。
4 h+ G5 }, @. ~$ VDisallow: /*?* 制止拜访网站中一切的动态页面。
- W7 E9 u9 Y m& u* uDisallow: /*.jpg$ 制止抓取网页一切的.jpg格局的图片。$ X q; O) A* o! {/ h) b& `
还,我们也可以指定网站只被某一种查找引擎抓取。
2 ^3 K( S/ L* t* j9 gUser-agent: Baiduspider$ f* S# X& I0 @
Allow: /9 X4 }5 |, x8 X2 I
User-agent: *
' v6 k" M* H+ p, e: ZDisallow: /
; E) \8 D3 @' y$ R9 V1 V0 b" J这个规矩作用是只允许百度爬取此网站。
2 h x! ^( ~# |! w- ~' x) I最终要提示的是,有时分当你屏蔽了你的网页,可是若是你的网页被其它网站提及,那么你的页面也有能够出现在百度的查找成果页面中。可是你的页面不会被百度索引与抓取,百度显示的是另外页面上对你网站的描绘,有些类似于以前大家常说的灵异快照。胆结石最好治疗方法http://www.boulong.cn// R3 U& @9 m' R x1 O/ ]
4 ~0 f+ j8 a2 p9 o& ]
|