第一:可以将robots文件当作一个蜘蛛抓取网站权限的指引文件(也就是robots的作用,设定那些页面给不给搜索引擎抓取,给那些搜索引擎抓取). y; @1 K7 R; j5 A
3 z5 a0 U$ M- _; T% g6 ~ Y 第二:蜘蛛爬行网站的第一件事就是抓取robots文件9 A$ c3 R1 h: u; q) Y3 R
+ b" V( i6 o. h: G# i* r
第三:蜘蛛会通过robots的指引去索引页面* g/ H' y) q! e( o' t( u( |
: b; J0 b9 \2 z 第四:robots的常规写法: x# Q- W. z1 R" q# u5 ]
User-agent: 定义搜索引擎的类型,通常用“*”代替,意思是允许所有搜索引擎抓取4 C; A) Q6 z) t3 V
Disallow: 定义禁止搜索引擎收录的地址,通常就是“/admin”,意思是不允许蜘蛛抓取admin下的文件 8 ~4 B s) G; U W$ Z" r 常规只写这两条,其他的在下面附上,基本上robots也就是这样,不需要太繁杂的东西,robots中的可以写的语法很多0 K& b% }) y4 Z+ N$ Z
8 R0 _9 F( E! Q9 H; \5 y: n7 ^. w3 @ 第五:robots中还可以写进地图,写法很简单,如下:+ ~! y) Q( F$ d7 P4 K
Sitemap: http://网站地址/sitemap.xml6 K A+ }3 C; g, U) Z. H% n4 ?
8 h4 N2 N; {; r' r6 }: t! ]
第六:一个问题,如果允许所有搜索引擎抓取所有页面,那么robots还有没有必要? 3 X8 y: y+ w W3 M) u 这个问题很简单,直接看第二条 + I5 c& Y, I# `. _: i6 _6 W3 F" Q9 X/ R: _8 {8 d, F% \5 D
第七:一个思考,robots是否有必要禁止抓取某些诸如后台页面的地址?