之前听说淘宝网对百度采取了屏蔽,就是说淘宝的内容百度不能抓取了。当时我想很多的人都赶到很奇怪吧,百度那么强大,“百度一下,你就知道”成了大家的口语,我们又怎么控制百度的抓取网页的先知呢?是的我们可以做到不让百度查看你的网站,可以决定要百度只看你的网站的指定的网页。相信很多seo工作者都知道一些吧,今天就为大家解密控制百度、谷歌等搜索引擎的搜索行为,seo优化必学的robots.txt文件的书写,废话不多说,文章呈现。
5 z) _3 ], F8 r: l' \9 E: w* _% E' |5 ^) T- s7 S3 }* }, r( z# g1 f
想必做SEO这行的你对robots不会陌生,简单的txt文件里面隐藏了整个网站的“阴谋”。
0 [; w+ m) [& h' s3 o; e* V首先简单的为大家(新手)介绍一下robots。
* s; e0 g+ B3 h0 ] robots是各个搜索引擎访问网站的时候要查看的第一个文件。robots文件告诉搜索引擎蜘蛛程序在服务器上什么文件是可以被查看的,什么文件是不可以查看的。当一个搜索蜘蛛访问一个网站时,它会首先查找该站点根目录下是否存在robots.txt,如果存在,搜索蜘蛛就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索引擎蜘蛛将访问、追踪网站上所有没有被限制的文件、url和页面。robots.txt必须放置在一个网站的根目录下,并且文件名必须全部小写。' |) V6 R# ~8 g! p% E
robots内容的写法(语法)
& T( E' i# d: Z: U, Q) T最常用的 robots文件使用两条规则:
) n+ e S, ]8 F7 C* x5 w& i· User-Agent: (后面跟着允许的搜索引擎蜘蛛). }( @# s0 i+ r- e: l* U' |$ D2 |4 |
· Disallow: (后面跟着要拦截的网页)
4 j2 m8 J7 X9 o9 q6 `" [: }* |具体详细写法有:! y' Y A' {: H, I8 @. F2 u
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
' g( Z: O. F- K( W3 tDisallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 " M/ N' m* i6 _7 g: r
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录 9 h2 f, \( C* c" o2 k( B
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录 ' t& G) ]% T$ K1 c' u
Disallow: /ABC 这里定义是禁止爬寻ABC整个目录 . Z* V$ T1 T I- {
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 # Q1 H; C$ ~" `0 C% {5 f: k
Disallow: /*?* 禁止访问网站中所有的动态页面 4 I* F' M5 P# J4 G' L" z. L! W
Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
4 v8 {) z0 u- @, t3 cDisallow:/ab/adc.html 禁止爬寻ab文件夹下面的adc.html所有文件
# r }; L$ G0 K D1 WUser-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
9 K' N! K) @" e& ?1 }Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
; K2 C2 P9 u. ~# @3 N! fAllow: /tmp 这里定义是允许爬寻tmp的整个目录
9 H& E/ W* A6 M2 l, YAllow: .htm$ 仅允许访问以".htm"为后缀的URL。
5 Z9 ?- T4 ]' M3 ^6 M" m* _Allow: .gif$ 允许抓取网页和gif格式图片* C# _8 Q% n( A2 o! L
robots.txt 文件用法举例
1 X& W( O# z) P4 j9 K, B例1. 禁止所有搜索引擎访问网站的任何部分
: t+ c: }6 O. R' M! IUser-agent: *
9 x5 u# w3 h2 B, zDisallow: /
8 Z4 a+ |0 W( K" s& G0 r) N8 [实例分析:淘宝网的 Robots.txt文件
6 \7 i" B) U$ _7 l/ L- }) A9 U! DUser-agent: Baiduspider2 E; Y! u, g$ M% c! k- v
Disallow: /: c" ^2 R% D3 b* p: ]7 Q/ d
很显然淘宝不允许百度的机器人访问其网站下其所有的目录。( I- H1 b: A. w( ~
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file) & T y: d2 _9 u$ @) V+ @: }
User-agent: *1 T3 M9 S& F' Y4 W5 n
Disallow:& ^ E$ u2 r8 k% H5 X( | |
例3. 禁止某个搜索引擎的访问 m' F) R P. o! z ^9 e7 d6 g
User-agent: BadBot+ k% s# l6 g5 s, a
Disallow: /3 m" N9 u% K* M2 _) T8 t
例4. 允许某个搜索引擎的访问
! t, @: p0 w: o. K2 E6 ~7 lUser-agent: baiduspider" `9 |" K" b1 H
Disallow:
2 z+ K j& e3 C* \/ {% B" xUser-agent: *
2 B/ j- w6 J2 `+ cDisallow: /) D7 w, D$ j% P- B
例5.一个简单例子- a9 x' \) h& ^+ M* f$ c8 k: R
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。 ' M; L# r0 k2 b+ P- Z, @
本文由南京家装拆除公司提供 www.njylcc.com 转载请注明 |