|
|
WordPress博客robots.txt写法使用Wordpress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,归纳大致有以下几种方法。6 v6 Z* _1 p! @# Z+ B: M8 ]) h
7 P/ R2 U. d. l3 M" V, X: p& c. N最简单的开放写法
9 U1 \% b8 w, v ^4 r
" C1 \% c( N* }/ [不作任何限制,Wordpress站内链接结构比较合理,作为一般博客,完全开放就可以了,代码:; b6 _* Y7 l# x0 X, Y! x8 v
- r0 r- \: ?, n, c# R- [
User-agent: *
& b; B* y- Q$ a$ p8 k: zDisallow:
" Q$ c% P! V' f, a h x- y7 X4 \+ y8 h7 H& z+ h" T0 V) r
允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。* p& ~5 I1 z! f, z" a4 J8 m `) }) m
% \2 B$ L) o6 D. O% w6 ?
最简单的严格写法 r; A7 W' q: V$ ^% i* }
0 W" c' L: y {& z
User-agent: *- X$ X% V* J7 @5 E Q; O0 ~: R
Disallow: /wp-*) R/ T5 v) n D- t% \1 H
#Allow: /wp-content/uploads/
4 h7 q/ f3 N& t5 V4 UDisallow: /*.php$8 F- A4 |9 h! E5 [
Disallow: /*.inc$# X: U; H3 M. p$ z+ M
Disallow: /*.js$
- j ~, O' k# R: a1 MDisallow: /*.css$
- k2 c( E4 g: r( S( E/ `# MDisallow: /?s=
) v5 ]5 Q# z; P$ Q1 R. |) ^9 s* M1 H: e/ a
允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。
" P- i. i* m A$ G k& B6 o% P; ?, o$ [
5 m5 c5 B4 n% A" ^( U( e7 V# NDisallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。" x/ r: V- L8 L
. H) ~* y# p# F8 X/ z/ M1 p
最合理的写法- g/ K/ i% _7 i
7 h& J% Q& _# `' z* e* ^1 f" V
卖瓜的都说自己瓜甜,我也觉得自己的Robots.txt写的最合理 ' `4 z1 u4 V4 l$ e1 o
, y; }1 @2 m" ?# b1 u6 u) n5 E
User-agent: *
6 J6 U9 I8 g$ \' L5 SDisallow: /wp-admin
: d' ]/ L* s/ B3 r- A7 dDisallow: /wp-content/plugins
- [# I- L9 N, z2 \Disallow: /wp-content/themes( n( Z' I& h" v5 ?
Disallow: /wp-includes% q! {, n& |) y7 g
Disallow: /?s=0 Y# @2 w' V- W' l: L ~
Sitemap: http://www.lutaigao.com..xml
8 W" a6 A. }3 I! o$ }
" ?: g* N1 u3 l$ y" O& k k允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。* M. C! E o* O. |; W9 b# `; E* I
3 q y: N& Q: R! J2 f7 Z3 O0 ^包含sitemap.xml地址(这一项viki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。
$ T7 _2 a) d) M/ V
; K+ s6 p5 w5 h# T$ @6 v; t: wrobots.txt其他写法
: {( Y# r" \, j$ x6 |: r4 F8 @, O. \& r4 u
为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):% m8 @. D: O& a% u6 v5 l
/ m: [1 b6 J) N5 u
Disallow: /page/
' a( z! [! ^2 w$ Q/ S
! } c* h; o" m3 h( m" v( W#限制抓取Wordpress分页* }' s9 I3 i% h' F5 W
/ V/ i8 t2 H2 m9 E$ b% VDisallow: /category/*/page/*
3 T3 D3 U T& W
% O2 T5 l- t! V h#限制抓取分类的分页+ p. N( |: E4 k- W5 |9 J
6 N7 H' D* v+ f5 x9 J
Disallow: /tag/% k, R8 ]( S& w
9 S: d: Q. h' K7 S% t9 ]* k3 ]#限制抓取标签页面9 B) q* q- |0 e7 w( \) O7 X2 P9 [
) F0 h6 h9 V7 g7 N, X% C, XDisallow: */trackback/
* R3 Y8 `1 \: U: I! k' t3 a( t9 W1 x# s9 A2 J
#限制抓取Trackback内容9 c y. @. s- U0 p! A9 d
( n) G# X) ]$ w: t9 n; f3 Q. iDisallow: /category/*
+ S: D4 Y+ D3 W
3 {. Z R8 A% T) s1 `- d8 r#限制抓取所有分类列表
: b6 m9 H6 s3 Q# J1 h% d# |) s2 Q$ `' E. P1 L7 `: ^
最后,推荐使用 Google管理员工具,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性。 |
|