|
|
WordPress博客robots.txt写法使用Wordpress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,归纳大致有以下几种方法。( e% y# i0 q/ `8 l8 H& P
7 S2 a" P$ z, g
最简单的开放写法
8 G$ ? _( A( m3 p/ m( E* q
8 [7 e# \: m2 _7 {: n2 P不作任何限制,Wordpress站内链接结构比较合理,作为一般博客,完全开放就可以了,代码:2 Q1 P8 b, {( h7 S" r
/ ?+ o4 t( M) @" O2 M# a8 _; B* fUser-agent: *& |" L# O9 q: ^4 I
Disallow:/ Z: P+ a. _# O. M
$ U1 f2 w+ q, r
允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。
( \' C! [' J1 y: |$ ?; ~( R A o% z h( K
最简单的严格写法
6 F8 b1 k$ C( z
8 Y: Y9 @3 `3 N6 f- jUser-agent: *
6 c" y( P- F8 {: f9 g3 N8 ?Disallow: /wp-*, ~) y0 _2 Y" k4 }1 P- H
#Allow: /wp-content/uploads/
0 Y f6 l3 P+ _0 V/ G gDisallow: /*.php$
; P* T- S: m2 \, N, E4 [ v- [Disallow: /*.inc$4 r" ^. j5 n6 k) o
Disallow: /*.js$! H+ ~3 N9 V0 q. c
Disallow: /*.css$
4 T: J1 w [; U* xDisallow: /?s=
: b+ n& N {* `. B) y% U
# Y' G! [1 e. M g _允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。
! z8 u7 m* _" r& E9 b& t& y; s3 Z) c; g2 G5 E5 E
Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。1 |$ ~0 ~1 M/ R; ^& T- r
* f* E' W1 w( V+ ~+ {$ D. s8 o
最合理的写法
. ~3 Q' e1 p$ M% D( p3 s) X. v
, y" H' |4 `* s: A2 c卖瓜的都说自己瓜甜,我也觉得自己的Robots.txt写的最合理 7 a, ]& z6 X8 t8 H+ [# B
5 E7 ~5 p; d0 d8 H0 ^& ^4 n% v
User-agent: *
! h0 _9 z7 S8 ADisallow: /wp-admin
! M: l `7 d, ]- O3 _Disallow: /wp-content/plugins
# N& _! \$ T w/ K& b2 \. `+ ODisallow: /wp-content/themes. I9 `6 G c2 k
Disallow: /wp-includes
' p1 m1 o1 R3 [( R( s& m) A) iDisallow: /?s=
7 |( l f! C" ySitemap: http://www.lutaigao.com..xml2 C' `. j0 |+ }2 M K
$ I h6 B3 v4 F允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。5 ~: g4 N- s) a- t; R W6 U. i( \
" C) S( u: T) V. Y9 J8 ~# s8 T, w包含sitemap.xml地址(这一项viki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。
9 G/ Q5 _$ V! ^$ e G
* E8 C; t# c# ?1 J9 brobots.txt其他写法
# E. n$ }6 y! n' s( c* ]
1 X! ]0 D6 m, W5 S( e为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):
: b6 a a. V. G. A0 g" E: G( O" E
( ?8 Z7 \9 y3 N: IDisallow: /page/
( n6 J* l0 G) T- y+ _
# y( U3 r; I2 h8 z% v#限制抓取Wordpress分页
( K* x# ]; h0 y" [0 t' P6 {
# I+ b9 j5 q9 {" G, \7 {& N F$ V FDisallow: /category/*/page/*
. r; T; Q2 J3 b, A
) Y6 d0 O4 X8 s9 y6 H# x5 w. I#限制抓取分类的分页1 x7 S- S0 E k
; h ~. e1 s: c7 K; y
Disallow: /tag/
/ k4 j1 B5 J! I3 A9 A- Z: @ t9 ]7 L4 c, h1 u
#限制抓取标签页面
+ U# F# h0 a% r5 M: r1 d; k/ o4 `, |+ |
Disallow: */trackback/
8 |: W/ z: a; a
7 C( }! B1 ^7 Q" M& Z2 n# S/ G#限制抓取Trackback内容
6 y" N. B- `) S1 r
! w$ K/ \1 Q+ I m6 Q/ jDisallow: /category/*- L- l5 q; ?' F6 g0 h, c
5 C( _4 g' r3 |- ~, P#限制抓取所有分类列表
. l+ r# o4 d% }9 z0 q* F
" K" g8 z' m! h x- S最后,推荐使用 Google管理员工具,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性。 |
|