找回密码
 加入怎通
查看: 645|回复: 4

[站长八卦] 浅谈屏蔽搜索引擎爬虫(蜘蛛)抓取索引收录网页的几种思路

[复制链接]
20120506 发表于 2012-05-07 15:30:53 | 显示全部楼层 |阅读模式
站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。
' D/ K5 y9 d, N" E9 z" v比如,你要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重,这肯定是我们不想看到的结果。www.labtt.com0 y0 y6 \# c, Z/ F# c1 R1 r
以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎蜘蛛。
+ U; ^) ?* D( ]4 c1、通过 robots.txt 文件屏蔽
5 ?6 }! _% o7 A# A9 t3 r3 P可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话)。我通过分析我自己博客的服务器日志文件,给出以下建议(同时欢迎网友补充):" a* X; b& e6 }; _7 H
User-agent: Baiduspider
, p. q& F, m/ o% d3 oDisallow: /
5 g& G; [" n! W" K7 AUser-agent: Googlebot
$ F3 }- J( t( |9 p5 Y/ L0 ZDisallow: /' {8 f0 M+ F# r* z3 j8 L7 E
User-agent: Googlebot-Mobile8 s' t) e! s" I- c$ b
Disallow: /  J. r* f% T  a8 ?3 U# b) m% _
User-agent: Googlebot-Image9 W+ U* }% M0 \: O
Disallow: /' @$ [9 ^4 p: L
User-agent: Mediapartners-Google
- Y/ }7 e1 L$ Q# A* SDisallow: /
+ W1 x. P3 x6 D7 zUser-agent: Adsbot-Google
& u4 ~0 ?2 p% b6 O6 NDisallow: /
8 o2 ^5 ~# n1 c$ bUser-agent: Feedfetcher-Google
$ B$ D. n+ t- U$ @! FDisallow: /
- T: ?7 @4 ~% p! m  v( Q- ?' mUser-agent: Yahoo! Slurp) b$ U& I) t$ x0 l! t
Disallow: /
* \. W8 u- W  ^5 ?. WUser-agent: Yahoo! Slurp China( D- M2 z% D8 N
Disallow: /
* f! I6 |5 B6 ?" A' z. hUser-agent: Yahoo!-AdCrawler% g0 n2 U/ y8 q; N8 P6 ^7 w
Disallow: /# U( R' y0 L/ h
User-agent: YoudaoBot* S, j% E/ |2 e& [# N6 C% `. r7 \
Disallow: /! w- |$ Y& ]8 S4 D
User-agent: Sosospider
4 x! w0 `6 P# `  B& l0 GDisallow: /
* p2 C  ^, W* Q7 @8 gUser-agent: Sogou spider4 |2 M$ `# @  a+ |2 Z) i  l  Z
Disallow: /
2 r8 Z0 N  T8 j* P; zUser-agent: Sogou web spider
+ U( v' P' W/ ^) e& S) D$ jDisallow: /
' I- c" n1 v4 |, ^  [7 YUser-agent: MSNBot, L( G- o, W4 o! f0 O
Disallow: /' Z+ _5 Q+ X% ~# Y5 ]4 k; O
User-agent: ia_archiver) E  ~  y2 D- L- h$ K
Disallow: /+ Q" A) H! C# `0 A6 o$ T
User-agent: Tomato Bot
+ u+ A( f+ y( m0 ?1 v. O. ~Disallow: /
6 e3 o! {' D% O* L6 |User-agent: *
1 u7 d# {3 Z/ J% p% X' @2 KDisallow: /, z: L6 _/ @3 c" v
2、通过 meta tag 屏蔽! w$ Y# U2 P$ v7 z  d8 C
在所有的网页头部文件添加,添加如下语句:
4 v# t& Z2 I# |' _1 w<meta name=”robots” content=”noindex, nofollow”>1 f$ E4 R' H& i- _" H! a3 i0 s
3、通过服务器(如:Linux/nginx )配置文件设置
) {9 s/ ?" i# G+ A& `直接过滤 spider/robots 的IP 段。www.labtt.com
, i9 g5 U# K+ c$ w& X4 O7 Y$ h( T- s小注:第1招和第2招只对“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots),所以网站上线之后要不断跟踪分析日志,筛选出这些 badbot 的ip,然后屏蔽之。0 z4 |6 E; w) `0 M3 q+ F
这里有一个 badbot ip 数据库:www.labtt.com转载说明出处4 Y; @5 K8 r: \) f7 ?5 J7 B
7 N3 H" N' O: _' G5 A+ v
回复

使用道具 举报

深圳印刷网 发表于 2012-05-07 16:37:36 | 显示全部楼层
呵呵{:soso_e163:}。。。。。。。。。。。。。
回复 支持 反对

使用道具 举报

等待她203307 发表于 2012-05-07 19:35:09 | 显示全部楼层
注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎蜘蛛。: k5 i7 k7 O8 g+ \
0 Y& u! j6 T; C; H2 K. n$ v: G5 E! Z6 b
回复 支持 反对

使用道具 举报

shuaizaiCMS 发表于 2026-04-15 08:35:20 | 显示全部楼层
说得很实在,没有夸大其词,这种真实分享太难得了
回复 支持 反对

使用道具 举报

whgbyy11 发表于 2026-06-01 19:55:57 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-6-15 13:39 , Processed in 0.029644 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表