|
|
WordPress博客robots.txt写法使用Wordpress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,归纳大致有以下几种方法。
1 `( z5 [- l0 ~ U/ K4 ?
$ m0 e: d! R* d, N1 g2 P( Z最简单的开放写法2 e. F5 k# i7 c: p& {+ G/ V! E
' e; N3 w+ ~( z) ~
不作任何限制,Wordpress站内链接结构比较合理,作为一般博客,完全开放就可以了,代码:
$ o- ~4 i/ f0 V. w z# G1 A- }% o4 U
User-agent: *0 s" K# W+ k' V, ] R& F: P
Disallow:! f# Z2 _ q6 F) ^# D- i1 u
9 _! V7 r' P1 K9 P* k( `( \
允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。
7 J9 C; @7 c0 z$ K+ A" C8 `+ R) h, a+ {/ k( e' Z# l( }! a# I! I
最简单的严格写法$ B7 w4 G0 R- i( u
8 H, N0 m( j. L, W$ M" O; Y8 n9 y
User-agent: *% j( m0 `5 W6 R; C
Disallow: /wp-*4 \1 @3 H2 g' W+ v& s
#Allow: /wp-content/uploads/! I' ~) _+ b% n
Disallow: /*.php$8 _; E7 I v! i% |. {+ @" R: q! W
Disallow: /*.inc$) v- S1 v, a2 F0 \! H
Disallow: /*.js$
6 n& B) f6 |2 z# e9 uDisallow: /*.css$- G: C, ~; Z/ U% t" W$ S
Disallow: /?s=4 w% a( S+ g& N& L
5 e* |" T$ W' g: g: O0 c
允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。4 v. q$ m+ B% _) E2 r# A8 c! ] W
0 F, H! U3 u: B( R" N$ iDisallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。
# J' p c) J% Q: \# _6 p6 t) [9 I4 W# Y% y3 z
最合理的写法( ~* F8 \$ A8 B
7 v0 P) I; w- n v g* n
卖瓜的都说自己瓜甜,我也觉得自己的Robots.txt写的最合理
7 F2 z( U, K& `' C1 a6 B. L) k, _4 b6 }
User-agent: *
% N& q, f7 V! q% j, q6 fDisallow: /wp-admin
& Y! t9 k$ o& rDisallow: /wp-content/plugins- s7 O6 q4 J, f( N+ [- f f
Disallow: /wp-content/themes3 z) b7 R$ q: G2 j) I8 k3 q
Disallow: /wp-includes
% H( D# K0 V$ Z/ ]Disallow: /?s=% k& y( t! ?, E( K; c3 o" E7 ?
Sitemap: http://www.lutaigao.com..xml
8 L7 P3 G# v2 F8 U, f2 m1 J" ], f- W( Z9 H0 e7 A E
允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。5 b/ v7 ^6 g9 t3 m2 R7 a+ U4 G# a
. X: Z5 p" Z7 A& A
包含sitemap.xml地址(这一项viki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。
, l) ^: @8 M. ]7 z9 x* q4 u& q) Q2 W: [" O1 C
robots.txt其他写法: v; ?/ }. g/ U& [% B0 C8 ?
, @6 ]* ]! x( E2 b$ J为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):
$ G, `; `1 K& e
% s5 \: s& U3 X$ L/ M" J* k M- M- sDisallow: /page/
+ h$ }9 F( [& L
. I2 u8 V$ S% U5 t' N#限制抓取Wordpress分页
( e; Q& R4 ^7 X( V6 f
8 w4 c* ?6 ^) S7 zDisallow: /category/*/page/*
+ C+ _3 @# ]) |' H/ }4 i' j, O& O8 R) g h
#限制抓取分类的分页
; J* D1 k# R N0 c6 ^; Q2 z
3 W/ Q: o3 a. {7 QDisallow: /tag/
" p+ ] Y Z D7 w
6 [" w$ _0 p8 w Q1 ?+ H; ]9 M' d7 k#限制抓取标签页面8 R; X( d4 {) H% c1 ^
3 R/ V o7 S1 M
Disallow: */trackback/
7 {9 Z) h. G* U7 T/ f2 ~1 n
8 J O9 J+ W( x( U2 ^0 L" \5 M#限制抓取Trackback内容+ W4 z, B" p) d. c' Y
! d& S! i5 w/ ]4 o" rDisallow: /category/*
, P5 Q+ \' J. Q8 ?' N# z! y2 r
) t' W5 p' ~1 i$ z) {# m#限制抓取所有分类列表$ j' z2 G- }0 T2 k; ^1 s8 h
8 Q/ E# Q ?- S( g/ w0 F+ _+ N最后,推荐使用 Google管理员工具,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性。 |
|