找回密码
 加入怎通
查看: 419|回复: 2

[站长八卦] 搜索引擎抓取内容应遵守规则 违反了将会导致大乱

[复制链接]
熊猫 发表于 2012-09-03 12:20:32 | 显示全部楼层 |阅读模式
  近日奇虎360综合搜索被爆出无视国际通行的Roberts协议,抓取百度、Google等搜索引擎内容,导致众多网站出于安全和隐私考虑不允许搜索引擎抓取的内网信息被泄露一事,资深互联网观察家洪波指出,做搜索就要遵守搜索行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争,这种行为不能从法律和GOV监管上及时制止,将引发行业大乱。
/ N- h' ^' S% ]9 S' d& v  c& F7 R' l/ v) j
  搜索引擎的原理是通过一种爬虫spider程序,自动搜集互联网上的网页并获取相关信息。而鉴于网络安全与隐私的考虑,每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。而搜索引擎则会按照Robots协议给与自己的权限来进行抓取。Robots协议已经成为所有搜索引擎必须遵守的国际惯例。这就好比一个正常的人去到别人家里,需要先敲门,得到许可以后才能进入客厅。除非有主人的进一步许可和邀请,否则你不能擅自进入内室,或者在别人家里四处遛达。
5 e+ \6 Q7 @) l& u# d
- g& {2 m' v5 ~5 l" T  g/ b% G  因此,当两周前新上线的360综合搜索无视Robots协议,直接抓取未经授权的信息数据时,其做法遭到了业内人士的普遍质疑。  Y5 ^8 B. \2 v) K

) |7 N5 q( M) H$ J" o: a* \  据了解,百度网站的Robots协议中并未授权360搜索爬虫抓取,但是360搜索无视这种设置,擅自实施抓取行为。考虑到很多内容源网站禁止搜索引擎抓取的网页中大多涉及存放在服务器上的后台数据库、用户稳私、密码等信息。这意味着,360无视内容源网站robots.txt协议中的设定,将导致存放在服务器上的不该被搜索到的隐私信息被搜索到,甚至直接在搜索结果中展示出来。
5 k, G/ a3 S$ L! O4 a" I" }3 m- |0 f9 l4 f% g: j
  对于被指责违反robots协议,由于事实俱在,周鸿祎已然无法否认,但他同时反驳表示百度在robots协议中禁止360爬虫,是不正当竞争。对此洪波表示,robots协议赋予网站禁止任何搜索爬虫的权利,这跟不正当竞争毫无关系。360无视行业默认规则,才是真正的不正当竞争。8 ]- @& r$ O+ B2 j6 l, E( u

+ B3 B' X6 O/ ]/ h4 J  I4 G  “做搜索就要遵守搜索行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争。”在洪波看来,百度并没有禁止所有爬虫抓取问答、知道和贴吧的内容,百度只是禁止了不规矩的、存在潜在安全风险的爬虫,这恰是保护市场秩序,保护用户隐私的合理举措。他指出,2008年淘宝也曾禁止百度爬虫,而百度则严格遵守robots协议,停止抓取淘宝网内容,并没有以淘宝不正当竞争为借口违反robots协议。' ?. C3 U5 H! k! a

5 b) w3 I6 Z# z& E) N) C  360一直自诩这是用创新的方式做搜索,洪波的一句话表示了他的观点:“一个连基本游戏规则都不遵守的搜索引擎,怎么好意思给自己贴上‘创新’的标签。也许在周鸿祎的字典里,无视规则等于创新。”洪波表示,这样的行为不及时从法律和GOV监管上制止,那360今天违规抓取的是百度内容,明天就可以随便抓取含有大量隐私的人人网的社区信息,其他网站和搜索引擎都可以效仿,被京东屏蔽的一淘还可以抓取竞争对手的的商品信息。以此类推,整个互联网行业将大乱。: F. a8 O6 h& h" N4 H& d
8 F# s3 v* j# i3 o% A& c
本文由齐鲁信息网(www.qlxxw.cn)整理发布!转载请保留,谢谢合作。
回复

使用道具 举报

TW电棍专卖 发表于 2012-09-03 12:34:47 | 显示全部楼层
做搜索就要遵守搜索行业公认的游戏规则
回复 支持 反对

使用道具 举报

营销软件 发表于 2026-05-24 12:55:16 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-6-17 16:03 , Processed in 0.191543 second(s), 50 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表