|
|
WordPress博客robots.txt写法使用Wordpress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,归纳大致有以下几种方法。& C6 `) |# A4 N6 ]" k+ y
+ {+ ^1 Q3 v! I9 ^7 [. y最简单的开放写法
- v- e) d7 n# h" |% o+ n( U$ K( V2 J$ m$ }8 a: }0 w$ T/ p
不作任何限制,Wordpress站内链接结构比较合理,作为一般博客,完全开放就可以了,代码:2 p5 X5 F% k2 j
. F( t3 `& P% ?5 x/ fUser-agent: *
1 P& y, K9 J( z" ~2 bDisallow:+ ] t4 K, v" e- M K$ L
9 J* P9 r/ i- L6 f& w7 m8 U3 p允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。! S' C8 J, G: |. }+ A
1 c- A9 q) l7 K+ s0 m
最简单的严格写法: K0 k. K/ P; ]' A) }! {8 [
" Q" P7 M. U, y% v
User-agent: *
' o6 j0 [/ \4 o( A' Y- d0 g0 CDisallow: /wp-*5 ~( O* q( s1 ?4 ~ {) j
#Allow: /wp-content/uploads/' h9 Y# a" w8 [& M7 \
Disallow: /*.php$/ H& {& O$ n& g& q0 a7 m1 @! X4 }
Disallow: /*.inc$. y* w$ s* t9 Y/ |& s: [7 l; ~
Disallow: /*.js$
% d. J* T( {* Q& ODisallow: /*.css$) ^$ ^% f, C6 ^4 ^* d
Disallow: /?s=
8 J J5 x0 [% p$ e5 m) {( i5 w9 m4 j: K% @
允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。
. [ f2 f1 [; H, H/ [ F( x+ q' @' }: g* n$ k* A
Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。
/ W# T5 ^7 D( e0 X! [8 P
Y& `& _. F% }1 O最合理的写法
% P6 j U. t5 ]$ _
8 ~5 K- @7 o4 F7 [3 {卖瓜的都说自己瓜甜,我也觉得自己的Robots.txt写的最合理
1 }- i7 a, ]9 m! X& f; ]" i/ q" C* r M% [
User-agent: *
' w2 o$ y9 O- J$ Q. J+ R4 ~ M5 SDisallow: /wp-admin Y3 e8 R! |) |: V- o5 _* K9 D
Disallow: /wp-content/plugins3 M: t2 A) Z& b( S8 X
Disallow: /wp-content/themes' e1 k! \# `3 W W |$ `& B- [. u
Disallow: /wp-includes; [! J0 O+ e: p' N1 S" v: y9 o' d
Disallow: /?s=/ ]% h, y# o4 P8 `
Sitemap: http://www.lutaigao.com..xml# N" {( m1 U2 f6 A
; O& g3 S# L9 B7 Y& p允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。( u0 {& M5 S; P' k2 l2 |% ^) `7 M% @+ a
0 `* W7 u# h$ A1 {5 p4 D3 v
包含sitemap.xml地址(这一项viki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。
2 n( B2 g% k4 i+ K
3 O, T' ^. c/ g$ \0 ~+ a) o) K3 p: W0 T5 Krobots.txt其他写法9 c+ {% M, J! g- V
x5 i6 b O6 v& a- r2 `2 s$ q' T
为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):
' _: F$ v7 | {8 M- J9 c w8 g5 x2 ~- h, r0 m7 ?/ j
Disallow: /page/# U. x, h: Q7 R! F2 g" U& i+ R2 n
- q! ^) t ]9 H; z9 |) z1 j
#限制抓取Wordpress分页
" k3 M1 Q4 ~7 W8 M) Y0 i- q- s8 \. P7 N: W" c4 y
Disallow: /category/*/page/*
5 Y. I* n% }. V4 M9 M& a7 M6 l! `. d; x) S1 O& y
#限制抓取分类的分页
! X6 W% y7 x5 }3 L
/ q" N( V, F: Z0 X: _Disallow: /tag/
& A5 B" S% y; m, r. p0 ~$ m+ r( p: J7 W7 [( } z5 B& X( R
#限制抓取标签页面6 W( W0 f/ Y! C2 U) I+ s5 j9 K) L- m
6 q; N5 U; X! l. m2 h3 U: sDisallow: */trackback/
- P6 f1 X! @+ O" ]4 E- X5 l' n; w" B5 Y q+ ~5 `) V; \* Y* c
#限制抓取Trackback内容
! {6 y" ?! R {5 x* |( z4 o/ N+ v1 `+ y2 ~+ o
Disallow: /category/*
1 l ?3 x1 ?1 p( \3 D2 k
1 v* i: w- f2 ?( D#限制抓取所有分类列表
; h% S$ T6 a* g4 d# L6 b5 F- ^
3 I% X$ g: r0 {( k- N) |最后,推荐使用 Google管理员工具,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性。 |
|