找回密码
 加入怎通
查看: 609|回复: 1

[关于百度] seo优化必学-robots.txt文件解密

[复制链接]
南京友联拆除 发表于 2012-07-22 08:46:37 | 显示全部楼层 |阅读模式
之前听说淘宝网对百度采取了屏蔽,就是说淘宝的内容百度不能抓取了。当时我想很多的人都赶到很奇怪吧,百度那么强大,“百度一下,你就知道”成了大家的口语,我们又怎么控制百度的抓取网页的先知呢?是的我们可以做到不让百度查看你的网站,可以决定要百度只看你的网站的指定的网页。相信很多seo工作者都知道一些吧,今天就为大家解密控制百度、谷歌等搜索引擎的搜索行为,seo优化必学的robots.txt文件的书写,废话不多说,文章呈现。
3 ^# f% {$ Y- k( ~
" J* z+ M% ], y+ u$ m
想必做SEO这行的你对robots不会陌生,简单的txt文件里面隐藏了整个网站的“阴谋”。; q" I7 R5 j1 u* z+ r
首先简单的为大家(新手)介绍一下robots
6 r: m. k  V2 m. F, {2 `. e3 h    robots是各个搜索引擎访问网站的时候要查看的第一个文件。robots文件告诉搜索引擎蜘蛛程序在服务器上什么文件是可以被查看的,什么文件是不可以查看的。当一个搜索蜘蛛访问一个网站时,它会首先查找该站点根目录下是否存在robots.txt,如果存在,搜索蜘蛛就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索引擎蜘蛛将访问、追踪网站上所有没有被限制的文件、url和页面。robots.txt必须放置在一个网站的根目录下,并且文件名必须全部小写。
( }$ h* N6 i2 S* I- Mrobots内容的写法(语法)
  ^* t, K9 w; r" ]4 `! [, ^. Y, G: Y0 y最常用的 robots文件使用两条规则:   
1 a5 X# M0 q7 z· User-Agent: (后面跟着允许的搜索引擎蜘蛛)
" ~$ }0 H4 w& t0 s$ N' c5 O· Disallow: (后面跟着要拦截的网页)
$ p: h: B5 m0 I# g5 d: H具体详细写法有:+ \7 S0 i" @( z6 d* c
User-agent: *     这里的*代表的所有的搜索引擎种类,*是一个通配符 % }  ^. @! u0 L- d, Z
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
( ]7 @2 d8 i* ~Disallow: /require/   这里定义是禁止爬寻require目录下面的目录 4 Y  L& O2 N! r: S! ^
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录    9 A9 Y6 U, `# E7 k( @9 S5 I1 W
Disallow: /ABC 这里定义是禁止爬寻ABC整个目录  7 a3 o* v$ O! {2 j4 x7 Y
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)
$ G8 t4 Z3 W* \+ R$ kDisallow: /*?* 禁止访问网站中所有的动态页面
+ L6 k7 a7 u8 g/ W/ CDisallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
) c" d  C: ]. U# T* q0 sDisallow:/ab/adc.html 禁止爬寻ab文件夹下面的adc.html所有文件
) b  ~2 \/ Y; }1 M" w4 H. n5 eUser-agent: *    这里的*代表的所有的搜索引擎种类,*是一个通配符
) \5 s2 t+ b! X6 B( b& e$ W) F+ gAllow: /cgi-bin/  这里定义是允许爬寻cgi-bin目录下面的目录 , m) U- s! m+ v  P
Allow: /tmp 这里定义是允许爬寻tmp的整个目录 / F' r2 |+ ^5 s. z7 M3 \, r
Allow: .htm$ 仅允许访问以".htm"为后缀的URL / q5 Y3 I8 D* }/ w; j+ [
Allow: .gif$ 允许抓取网页和gif格式图片
8 P7 {5 l% @# `# E9 X; Erobots.txt 文件用法举例
7 \# V/ s4 h; w/ l# b! a' [1. 禁止所有搜索引擎访问网站的任何部分8 a7 x# h5 N5 n
User-agent: *  
8 S" L3 w! l. o6 G9 qDisallow: /
% w6 F/ q- J8 ?1 H5 Q2 j! p% O实例分析:淘宝网的  Robots.txt文件: k9 k. y! x, {% P$ H( ]3 D9 J. ?
User-agent: Baiduspider
& w$ _, W6 L: l' H+ f8 G0 LDisallow: /  w# Z1 u$ R5 v0 Y" J; [) M
很显然淘宝不允许百度的机器人访问其网站下其所有的目录。
/ F  t% G: d4 L! M2. 允许所有的robot访问  (或者也可以建一个空文件 /robots.txt  file)  7 W; d- \, q1 B/ b) r- L# V
User-agent: *, q$ d( W9 N5 J( c
Disallow:. D& G  M" A) B
3. 禁止某个搜索引擎的访问5 C* y0 z2 B: l3 M: Z! j* ?
User-agent: BadBot: G' e) R+ ^3 V7 Z. c
Disallow: /8 y+ z% g7 V, N) I6 I
4. 允许某个搜索引擎的访问
. z8 {2 G5 l7 M! i! m; E7 u1 bUser-agent: baiduspider( m* e( [0 [8 y" o: S6 c
Disallow:                                                                                                        ! O) x5 J+ g$ E; q# {6 ^
User-agent: *
( B9 v) e" ^& C3 f% k7 f3 o8 ]Disallow: /% V! {) t, i/ B9 u' e* w
5.一个简单例子: ]& o. Z! F* l
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。 ) r" T/ q; T. [" I' \0 `+ Z
本文由南京家装拆除公司提供  www.njylcc.com  转载请注明     
回复

使用道具 举报

ganbing9 发表于 2026-03-29 19:37:29 | 显示全部楼层
这个思路很新颖,打开了新世界的大门,谢谢分享
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-4-30 10:40 , Processed in 0.129837 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表