找回密码
 加入怎通
查看: 531|回复: 1

[站长八卦] Bing核心搜索研发部对搜索质量的见解

[复制链接]
会更好 发表于 2012-06-20 21:05:26 | 显示全部楼层 |阅读模式
题记:这是一篇来自Bing核心搜索研发部经理的一篇文章,本文讲诉了Bing的一系列功能改进,这只是一篇普通的搜索功能改进介绍,但通读本文, 我们会发现,搜索引擎会把大量精力放在研究人们在搜索时犯的错、如何正确理解用户的意图、以及利用词库提供更精准的内容上面。所以卢松松相信,无论是bing、Google还是百度,都会这么做。
5 \1 r6 I& Z3 i0 T; h6 @" D5 D; s! A4 ^7 a! m9 M) y0 u0 @
在Bing,我们承诺提供最好的搜索结果, 虽然研究小组数据挖掘专家,在不断提供我们的核心拼写和排名算法,可现实是总有某些历史上的遗留下的缺陷,这部分是因为人们过于依赖搜索所犯的错误,在这篇文章中,我的同事Bill Ramsey(Bing的研发部经理),将从三个方面介绍缺陷的发生率和严重性:网址查询、追踪链接和相关搜索。
( [* O, Y" J/ f+ F% u/ E
% o) z- r. s$ ?* W( I网址查询常见的错误
: f6 r6 X" }5 c' p
* D+ l1 ~: l8 b0 u9 `+ G这 是搜索缺陷的主要来源之一,涉及到我们所说的网址查询,例如“facebook.com”或“雅虎网站/邮箱”的查询,乍一看,你可能会认为这是一个简单 的问题。毕竟搜索引擎(Bing)包含数十亿网址,找到一个匹配的网站没多少难度。但在现实中,这种类型的查询实际上相当复杂。因为我们所有人会用无数的 拼写与变体。" w4 c. h  U, P4 L+ @$ F* ^
0 A5 ?" O+ r$ D- o8 C& h1 Q
例如,“facebook.com”就有上千个不同的变体,如“facebookc.om”,“facbook.com”,和 “ww.faceboo.omc”,除了这类拼写错误外,人们并不总是知道正确的URL。例如西南航空公司是southwest.com,但有些人试图搜 “swair.com”达到该公司的网页。同时,我们通常看到的网址,如“雅虎网站/邮箱”时,正确是URL是“mail.yahoo.com”的排列。
' w# n, c) o2 d# o* O/ [0 S
8 i; z! f) V2 Q' E, J1 K$ K2 p3 [即使我们找出了你真正的搜索意图,但恶意网址或垃圾邮件发送者提出了另一个挑战。它们猎取顶级域名对象如coolmathgames.com(人实际上是为coolmath-games.com)的URL。7 K/ v7 X% L3 K' o
: D( L5 [0 S* F; E
这是我们的缺陷,我们主要通过三个领域来解决这类错误的查询方法:
( f7 W7 K+ Q6 E4 v: G& s& ]2 R9 n9 |* B- O  ?0 r- r6 X
第一, 正确识别URL,我们可以就遮挡,通过确定的网址,我们避免如包括像searscardcom.com垃圾结果的问题。9 o* m! B/ N5 G( Z7 `

' b  O9 ^0 g$ I+ r第二, 进行模拟用户错误测试,通过数十亿的原模型,我们能够解决常见的拼写错误的网址。" z" @/ T2 C) \' _: M2 U* ?0 R

1 G; q: |/ j: c3 V# E6 ^: `第三, 我们会分析,寻找像“swair.com”网站,使用户最终将结束预定网站“southwest.com”。% ^6 b; J# ]9 O) C, D' E% J
1 V, a( j% R" `3 |
另 一个例子,适用于机器学习模式,像“facebooklogin.com” 的查询相当于 “facebooklogin.net”,这是很常见的域名后缀输入错误。此外,像“bed bath and beyond.com” 输入成 bedbathandbeyond.com。我们的模型已经适应了这些变化,会主动把搜索结果修改,下面的例子是facebook的用户:0 B. `- \# v% Y, `; R' ^: i% x
6 H' y+ z5 Z! i) R
删除多余追踪的相关链接
* c7 i" ^/ T3 E% @* z9 j! l
4 ?# V  @+ `! k' T& z; i8 N! u% B搜索引擎的关键功能之一,是查询执行拼写和查询扩展的组件,拼写会纠正数百个错误的查询,而搜索出现的词组(下面的查询框,表明我们改变了用户的查询),我 们把这种改建作为“追索”。例如,如果你输入“关于成功英雄的事迹”,我们将显示“包括引号的成功的英雄事迹”,但我们可能只显示“关于成功的英雄和事 迹”,我们会架设所有关于你的意图。
; P& u! y. i) q) o
0 f" y! M) a$ ^5 c5 V3 F8 Q在过去,我们用同义词作为我们追踪链接的一部分,但会经常导致搜索结果偏离主题,导致同义词追踪成为多余的功能, 所有我们在不断扩大“词语”的定义,帮助其用户更好的进行匹配。
& l: n/ C' G& b' c% K. H/ o4 B5 {3 Y- o. d2 O* x4 r& {; ?2 ~; d$ I$ `4 E
所以这项功能我们已经删除,这个附加的价值不大,当Bing改变一些同义词的话,追踪链接可能不可能添加更多的有价值的信息,所以我们将搜索结果的颜色改为黑色。我们将继续努力为用户指定的搜索词语提供更好的查询。
- t9 v8 }! n" D1 ?
# q  C: V3 N2 B* J* Z改进相关搜索
2 ?! c0 l) ]4 f* O& j6 H9 @
4 t; V  w6 J* k. P! E7 c相关搜索,这个大家很熟悉,在人们初始搜索时,我们会把相关的搜索防止搜索结果左侧,现在调整到右侧,例如搜索“布拉德·皮特”:& J+ r9 h8 N; i/ q' {3 F/ c* r+ K
& ?: [( _: K4 E3 y1 m
(注:Bing中国版还没有变,百度和Google在底部。); N. P+ s: M! U/ Q

( Q1 q! @1 Q: _- a5 v8 d有时我们会查询搜索结果的题外话。例如“AMD”会给用户提供意想不到的搜索结果,通过改善我们的相关模型。6 w4 z/ Z+ ?. J4 {
- r. b% x! n4 z
同时,我们也取得了其他地方改进,超越有关相关搜索中的格式条款,即“KSN WeatherLab” 中的 “KSN Weather Lab”,(注:一些实验性项目,处于测试阶段),并避免在安全搜索中检索到成人内容。
+ U( P' I/ |0 [: ?; p, t' q- E5 E& G, v- c% k$ \
结论:
, v( b# w/ h7 Z1 O: N+ P1 B/ |
. L' N/ Z" o: u2 e搜索引擎的有点在于它会始终依赖于人,而人们总会有不同缺陷的,我们做的是降低缺陷率和搜索率,希望人们可以做更少的搜索并做更多的事。
7 Z8 {$ |3 N3 N) x& U& Q8 l* s' i' Z2 N/ g0 y! I& \. T7 Q- M
回复

使用道具 举报

西万路小混混 发表于 2026-02-23 00:48:31 | 显示全部楼层
楼主辛苦了,整理这么多内容,必须点赞收藏
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-26 01:55 , Processed in 0.264724 second(s), 23 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表