找回密码
 加入怎通
查看: 584|回复: 3

[站长八卦] 网站优化基础知识 告诉你robots.txt的制作

[复制链接]
朱岩 发表于 2013-02-20 15:01:08 | 显示全部楼层 |阅读模式
网站优化基础知识 告诉你robots.txt的制作首先,我们要明确什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。: @8 X& n. W* h0 L* X7 d; x
这里提醒一下,请留意:当你网站不希看搜索引擎全部收录时才用到robots.txt文件(比如你网站后台页面)假如你希看搜索引擎全部收录你的网站,请建立一个空的robots.txt文件。1。首先告诉大家robots.txt文件要放在你网站的根目录里面。当你修改了你的robots.txt一般会在48小时内生效(对于搜索引擎来说)。2。假如你要禁止搜索引擎在搜索你网站时显示快照,而只对你的网站索引,什么办呢?百度支持通过设置网页的meta,防止搜索引擎显示网站的快照。方法如下:  X5 x6 Q3 N, s/ ~) {; L
要防止所有搜索引擎显示您网站的快照,请将此元标记置进网页的 HEAD 部分:
  A% Y( n( x' q3 w, b0 l: {meta name=robots content=noarchive
, {* a( Y* |+ y; x" x要答应其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:
* C: t$ B$ P" ^3 M9 v5 h7 s, U/ tmeta name=baiduspider content=noarchive
& a1 b% g1 p" B; M注:此标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。3。我们来看一下如何写robots.txt,他的格式是什么样的。
5 f. J' R7 h- s# Y" p( ?( L该文本是以 User-agent: 作为文本记录开头的。这个值有什么样呢?它是来描述搜索引擎robots的名字。比如说你要专指百度搜索引擎你就可以写为 User-agent: baiduspider同样的谷歌就是 User-agent:googlespider 比如你要描述SOSO图片蜘蛛你可以写 User-agent:Sosoimagespider 这样都可以 假如你要针对所有搜索引擎呢 User-agent: *9 w3 f! l/ G. R
就是所有搜索引擎全部概括了。0 D6 n4 p# m! u1 q
robots.txt 除了第一项 User-agent: 还有其他两项 Disallow: Allow: 但是User-agent: 是唯一项 他后面可以加若干Disallow和Allow行 也就是这种格式
! b9 T1 V! Q- b' NUser-agent: *
: u, ^, U; ?- J- Y$ {; o! x# UDisallow:
: Y) `; c; t$ N/ z8 SDisallow:
; z/ ]+ P$ T" ^" m7 q# xDisallow:
$ J; }7 k2 M5 r. y' pAllow: # \) M/ m% V8 ~0 ^! C/ |
Allow:
) j$ j9 S$ O0 i3 lAllow: 后面加多少个Disallow和Allow行都可以 是根据你需要来加的。好了我接着说 Disallow该项就是告诉搜索引擎我不希看我网站的那些网页收录的。你就可以用Disallow的描述来限制搜索引擎 我们来举个例子,比如我要限制所有搜索引擎不收录我的后台目录admin 那么我们什么做呢?来看一下
% B+ @( `3 U4 L+ ?5 l+ K  x- o: SUser-agent: *# M, L) k2 t2 R% c3 K* |" ^! \
Disallow:/admin/( G/ B* E- ~9 @
就可以了 假如是要显示百度不要收录我的这个目录实在搜索引擎可以什么做呢 前面我们说到了& g% M5 h$ ]; `8 e4 f9 Z' }0 i
User-agent: baiduspider
, L  I' U1 Z; N( a, ~% ^1 cDisallow:/admin/
. j& a+ G! O' [9 Z你问假如是要禁止所有搜索引擎访问全站应该什么办呢?我们来看一下' d3 `8 O* [# u+ ^0 }! Q/ _4 _
User-agent: *
7 q% @; g% O; S( ?Disallow:/假如要禁止访问多个文件夹呢 比如我要禁止访问 Admin image data 3个文件夹& D8 r- I2 t' j- b# V' S
User-agent: *- ?: u4 d# E6 Q% }( A6 ], F
Disallow:/Admin/: ^, G+ N" G) t; l! T5 y. r3 h! q
Disallow:/image/
3 S, e1 N& n' g( j3 M- V) J" E2 WDisallow:/data/& g- T! ^/ @+ n7 \
这样就可以了0 U& d/ ~, V0 ]  Q& K6 ~. t+ n
我们来解释一下Allow行是做什么的?实在这个Allow和Disallow是相反的。Allow他的意思就是希看搜索引擎访问我网站的一下路径,Allow通常与Disallow搭配使用。下面我们举个例子) d' o8 B* A0 N2 h/ M( e! x
我要答应访问特定目录中的部分url 比如我不要他访问我Admin目录 但是我希看他访问我Admin目录里面的hdd.html 什么办呢?这时候我们就可以用到Allow了 来看例子! S  {' |' ~& B
User-agent: *6 C+ X% ~4 W) I
Allow:/admin/hdd6 n* P/ W$ c. J" l5 Q% Q- ], A
Disallow:/Admin/
0 a9 ~1 v) R4 ^% _* T' \, _这样就可以了 % G9 L" ^" Z/ w1 g4 `3 N! L
顺便所一下 在robots.txt里面可以使用*和$:
) t. T' P; G% ~baiduspider支持使用通配符*和$来模糊匹配url。/ j# C2 p0 S  v8 \- L/ q
   $ 匹配行结束符。
  H# P  l/ U8 x   * 匹配0或多个任意字符。) w8 |) z) Q3 l. u
举个例子: 使用*限制访问url 。禁止访问/iea/目录下的所有以.htm为后缀的URL(包含子目录)。# \3 j* _4 r$ [' h, ^
User-agent: *2 {. y& h) @7 v
Disallow:/iea/*.htm 就可以了。
7 B8 }7 [8 P2 n8 q, p7 w$ j9 J7 ?3 u& H再来举个例子 关于使用$限制访问url , 仅答应访问以.htm为后缀的URL。# z, }5 g0 _* H. J, t) V1 J: p1 b
User-agent: *8 I6 J4 Z2 l9 ^  D5 W
Allow: .htm$2 T% z1 J9 T0 ]. n3 E
Disallow: /
  u1 M0 w" Z, ^0 z8 ?7 g好了说到这里 应该大家多robots.txt有一个基本的概念了。
$ e  |1 t8 f% e; u
5 g  Y6 G  }) F- |; u0 L7 ^- |- ?( A# {
( ?% @% n# o# Y* x- R: [! Y
回复

使用道具 举报

太阳 发表于 2025-11-10 19:03:12 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

阿元 发表于 2026-02-28 18:02:34 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

l101256 发表于 2026-03-04 04:12:29 | 显示全部楼层
这个分享太实用了,刚好能用到,感谢楼主!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 加入怎通

本版积分规则

QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

GMT+8, 2026-3-16 07:56 , Processed in 0.065390 second(s), 24 queries , Gzip On.

免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

Powered by Discuz! X3.5

快速回复 返回顶部 返回列表