第一:可以将robots文件当作一个蜘蛛抓取网站权限的指引文件(也就是robots的作用,设定那些页面给不给搜索引擎抓取,给那些搜索引擎抓取); k* v* p2 g2 J
& C7 K) U( [4 [6 A1 G4 w, a' T, b
第二:蜘蛛爬行网站的第一件事就是抓取robots文件/ T0 M, p+ Z$ q9 C
$ [/ m4 T% W! D' n
第三:蜘蛛会通过robots的指引去索引页面5 h9 N0 Q, R8 N; j) z
[7 a) d, R$ c+ l5 u5 i1 ~5 L- Y$ Y 第四:robots的常规写法:# B, n8 _5 w% x! G6 H
User-agent: 定义搜索引擎的类型,通常用“*”代替,意思是允许所有搜索引擎抓取# _: c0 @& ^" d# R
Disallow: 定义禁止搜索引擎收录的地址,通常就是“/admin”,意思是不允许蜘蛛抓取admin下的文件
/ V; |8 h6 s& |4 j/ M" l) S# q% m 常规只写这两条,其他的在下面附上,基本上robots也就是这样,不需要太繁杂的东西,robots中的可以写的语法很多* c4 H1 F& Y* W+ `: Y2 V
' _, S; T9 p7 d5 m. m 第五:robots中还可以写进地图,写法很简单,如下:) r3 G/ o' u& L
Sitemap: http://网站地址/sitemap.xml' z% T4 H5 F- G5 r1 I
' m6 |: k3 l2 W. @ 第六:一个问题,如果允许所有搜索引擎抓取所有页面,那么robots还有没有必要?
- B X1 E- Z& A3 o. W) l 这个问题很简单,直接看第二条4 ^8 c: Z! D# ^- y# n' z9 q
* p7 H" o8 `4 H' j) ` 第七:一个思考,robots是否有必要禁止抓取某些诸如后台页面的地址? |