商业智能已经在实现着三个转变:从数据驱动转向业务驱动、从关注技术转向关注应用、从关注工具转向关注工具产生的绩效。而搜索引擎本质上是业务驱动和关注应用的(实时的用户需求响应),因此本人认为商业智能和搜索引擎二者有探讨的空间。这或许有助于理解技术的分分合合,或能为完善二者提供些参考。
0 L2 H4 g1 [$ U. ^6 [' i2 ~1 P8 b
1、搜索引擎本质是(商业)智能的一种体现。3 ?. Q5 ^: W; `2 O3 T% s9 ^
! c8 f+ Y5 z3 p4 b) O2 N: ?% K4 ? 企业或集团的历年数据累积甚为庞大,但信息过量,难以消化,且信息形式不一致,难以统一处理。“要学会抛弃信息”,人们开始考虑:“如何才能不被信息淹没,而是从中及时利用数据资产找到需要的信息、发现有用的知识、辅助自己分析和决策以提高信息利用率?”商业智能应运而生。( u7 S5 c* \- u
- T. J3 I7 ?# s W
网上信息浩如烟海,网络资源飞速狂增。如何才能不被信息淹没,而是从中及时利用网上数据找到需要的信息?搜索引擎应用得风生水起。
a+ `) v7 b ^: ~
; ?; [; W( r) E 可见,搜索引擎和(商业)智能都在解决同样问题,都是需要自主地或交互地执行各种拟人任务,都是与人的思维、决策、问题求解和学习等有关活动的自动化,是拟人思维(智能)的体现。
7 ]- b, j7 a4 b \0 q" k- p
: ~6 |( { {/ t* H& o, F+ @; A, C 2、搜索引擎和商业智能的工作原理一致/ ]2 z' G# E# O% U
4 y3 a! `" S# x' g# E
我们先看看搜索引擎的工作原理。搜索引擎有抓取网页、处理网页、提供检索服务三个主要环节。首先是抓取网页。端到端的搜索引擎都有自己的网页抓取程序(spider)。Spider以超链接为顺序,连续地抓取网页。被抓取的网页被称之为网页快照。其次处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。**还包括去除重复网页、分析超链接、计算网页的重要度。 准备工作完成后,即是浏览者所见到的搜索引擎界面,即第三提供检索服务 。用户输入关键词进行搜索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及**信息。
8 P! |. f% n# J! T4 J; b+ `$ [
. q) k/ N- ?$ i/ E+ @1 u: J 再看看组成:搜索引擎的组成部分一般由搜索器、索引器、检索器和用户接口四个部分。搜索器的功能是在互联网中漫游,发现和搜集信息,主要是讲spider;索引器功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;第三个是检索器,其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;第四用户接口,作用是接纳用户查询、显示查询结果、提供个性化查询项。
! f+ \8 z. C% R2 i1 T5 B& u4 \2 E' i4 b' M) U- Y1 q4 p
这四个组成部分,搜索器是收集数据,索引器是处理数据,检索器和用户接口是数据展示。检索器是数据展示的提取过程,用户接口是个性化展示用户的数据需求。* M1 p; |8 V/ ~# A( U: Q. p% n7 k
& \3 x4 ^2 p7 l& _% i
收集数据的方法一般有人工录入、机器抓取、人工录入机器抓取同步。人工维护数据的搜索引擎分类目录由人工整理维护,如Yahoo、新浪分类目录搜索,机器抓取自建网页数据库,搜索结果直接从自身的数据库中调用,Google和百度就属于此类。现在人工整理维护和机器抓取都在融合之中。+ }' ~' r: o+ h# }0 R& {( t: N! }
; ?: u3 s+ \8 ?* [+ j+ _ 数据获取方面,需求满足第一,效率第二。机器抓取体现了高效率,高稳定,低成本,但原创性和信息的编辑性不够,人工录入如果做到高质量原创性、较低成本则更能体现信息对于用户需求的满足,效率则是排在第二位。比如走群众路线的通通网,以产权私有为基础,发动大量的学生录入经学生自己编辑过、且符合学生群体特征的原创性信息(通通网那里是“线路”),成本非常低,但更能满足学生群体的搜索需求。* T1 L w+ U$ l7 I
) h; Q+ ^2 h! `' g- u) G K
我们知道,商业智能(BI)的主要工作原理在“数据抽取、数据加工存储、数据分析和数据展现”这四个环节体现,这是一个完整的端到端的商业智能解决方案。每个环节都有不同的工具或厂家,但是整合基本完成,当前数据库环节的厂家已将其它环节的厂家收购得差不多了。搜索引擎抓取网页过程和数据抽取ETL过程一样,实质是获取数据。处理网页实际是对获取数据的清洗和整理,这是数据加工存储,是数据仓库内容。提供检索服务实际上是数据分析和数据展现。
) t* M3 y7 O$ m8 \* u* O e% {1 {& K# n1 Q) r- k
可见搜索引擎和商业智能的工作原理一致。基于商业智能的四个环节中各有强者的认识,在“抓取网页、处理网页、提供检索服务”三个环节上不同的搜索引擎也是各有千秋。如Lycos搜索引擎即是关注提供检索服务,它只租用**搜索引擎的数据库,并按自定的格式排列搜索结果。
4 o; L8 J% ~$ E
3 j3 f! o" ?4 g 3、商业智能在三方面需要借鉴搜索引擎
8 Y8 W: G H' T- s' b. ^+ j: @' O5 i4 g: L2 Q. K
1)搜索引擎获取结果的方式极为简单,值得借鉴% d5 X T2 t- u0 E4 m, e o5 h1 v
* r1 {) G S; [ u, I" {2 n
商业智能应用主体的泛化,使得BI融入日常业务运作,这需要极为简单的操作方式和低成本传播方式。而搜索引擎的简易操作性可以实现这个目的。从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。操使用非常简单。操作型BI日益壮大,BI将在单位的基层、中层中得到应用,也就是流程型BI(或操作型BI)将得到重视和推广。这种流程型BI的“下里巴人形象”将实现“一般员工也需要用BI,也能用BI,也必须用BI”,从而使BI最大化地用起来 。可见此时的用户已经包括非技术/分析专业的业务/管理人员。商业智能产品提供的查询、定制、分析模式对非技术/分析专业的人员来说仍然 显得过于复杂,无法支持他们快速、低成本的获取想要的结果。当前商业智能在语义层方面已经有了较大提升,语义层功能已经比较方便了业务用户对数据的操纵。但在理解自然语言方面,例如让系统能正确理解人类的自然语言输入的信息,并能正确答复(或响应)输入的信息,搜索引擎相对做得更好。
g( A+ \" s7 b6 D) e' B+ J3 q. H7 s7 ?, H2 j# q
2)完善和提升实时理解分析能力9 {: m3 o6 X# o6 P6 h2 ~ d
0 X, S7 @/ k r8 s- e; O 商业智能在if-what-how模式基础上,补充what-how模式,实现实时智能。不少商业智能解决方案,特别是应筹学的建模应用,一般都是先假设问题,并对此建模、构造数据及应用体系,针对特定领域,采用特定的分析方法,返回特定的结果。而采用搜索引擎技术则可以通过“数据 语义 分析方法 结果编排 呈现”的方式,具有数据范围广、分析结果动态的特点,能实现实时智能。当前部分商业智能产品中可以方便的加入各种类型的数据源,并在类似Google的搜索框中输入关键字(比如:“12月份 销售收入 销售费用”),系统将返回合理组织的图文并茂的结果。数据—趋势图形”的交互式联动也引起了许多用户的兴趣。 W U* j8 n+ H$ O' C
; P$ i% w+ c6 V. X0 \4 [
3)增强对非结构化数据的处理能力2 y& [/ G) j' z8 H3 M( h
$ [- q6 S% ?7 G" U+ r* j 非结构化数据对于业务处理日益重要。支持一个决策的信息不仅仅限于来自数据仓库、ODS层的结构化信息,往往还包含大量的非结构化信息,比如文档、邮件、媒体文件等。搜索引擎在处理图片、视频、音乐等非结构信息方面有着较强的能力。; R6 b% K e# G( E+ v
4 Q/ G. K& d5 E% ]+ Y4 Z4 k, @) A 4、搜索引擎在四方面需要借鉴商业智能
" } M0 u* D- y0 y: \6 B
4 ~; Z7 ~1 P9 Y" i" W" \ 1)借鉴专家系统,提高搜索引擎对用户检索提问的理解,去掉多余的检索结果。# Y, g. f) J, Z) t5 n
. y) b& g; c6 H$ A2 G; Y* W 当前搜索引擎检索结果已经有较大准确性,但仍需完善。过多的信息、过多的无关紧要的信息,应该在检索结果中去掉。附加的多余信息的出现,重要原因是搜索引擎不理解用户提问的原意。优化检索结果的解决办法当前已经很多,如元搜索引擎、集成搜索引擎、垂直搜索引擎都是较成功的例子,能实现非www信息的搜索 提供FTP等类信息的检索、多媒体搜索等,当前的解决方案倾向于确定搜索引擎信息搜集范围,提高搜索引擎的针对性。
2 k9 A" @+ k9 l$ l3 l4 k; ?0 g. @5 o8 ~
此处提出针对特定的、复杂的搜索,可以借鉴专家系统对问形式的思路,以提高搜索引擎对用户检索提问的理解。
& G, a' _# K i0 ~! A3 a
+ S3 y$ O; f" u/ P5 x+ f 2)提升智能程度,从搜索数据/信息到给出解决方案,甚至可以执行方案
8 S' I1 F2 a! p( v1 W6 l9 J6 p- A) i2 a
现在的搜索引擎,它就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径,提供了相应的数据或信息。至于信息如何分析和判断,并帮助我们用以决策甚至直接执行,还只能依靠我们的大脑。当前搜索引擎根本无法做到。但是,对于用户,搜索不是目的,他需要给出结论,甚至需要帮助他实施。比如,我想买MP3,衡量指标是品牌、价格、质量、送货时间,我需要在搜索引擎中放入这四项,让计算机执行,一定时间后搜索引擎已经给出了四个方案供我取舍,或者替我做了决定性,帮我买到了某个MP3。这是用户需要的,而不是放出一堆信息,让用户一项一项的判断分析,花费太多的精力,这不是我们所需的。
1 V# L8 ]8 u$ {* J6 b0 j( W. ]; e! l4 Q5 ]. K( O% l
所以当前搜索引擎的智能程度不高,仅解决了商业智能智能程度的第一个等级:查询/报表。 商业智能在应用智能程度上分为三个等级,第一层次是提供数据参考帮助用户作数字方面的回忆或确认已发生的事实,这叫查询/报表; 第二层次是帮助用户寻找关系、寻找原因并加以预测,叫“综合分析”;三是产生几条实现目标的路径,让用户取舍,叫做 “方案选择”。方案选择层次事实上需要产生应对问题的措施或解决办法。
! D, V- `4 ^- k/ c0 b2 T, G! P
: a( d+ }% F) K5 o4 K# r 商业智能在综合分析和方案选择上有些进展,但依然不成熟,搜索引擎和商业智能可以融合共进。) n0 K: N; G7 ~4 p9 M' B3 _
0 S' E r; X) ^7 X* d
3)革新网页重要度的评价体制, V# V# S* g, a
6 P, Z6 V$ ?# L) O; R4 @ 如何展示用户所需的数据或者结论,以什么标准进行衡量,这对于搜索引擎和商业智能都是非常重要的课题。$ r/ c' ^' b( C B$ o& I( e8 Q. G
1 y4 f, z/ v2 W2 N/ l 现在搜索引擎有两种评价标准,即基于链接评价的搜索引擎和基于访问大众性的搜索引擎。“链接评价体系”认为,一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。这种评价体制与《科技引文索引》的思路非常相似,但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性(百度百科)。基于访问大众性的搜索引擎也具有类似缺陷。当前的办法是弥补,而不是革新,还没有找到替代上述评价体制的更优方案。- F7 v R5 Z6 U* l2 v7 b
) L# X, L$ R! w/ @6 H7 t7 o
更为重要的是,由于任何人都可以在网上发布信息,搜索引擎能够帮您找到信息,但无法验证信息的可靠性,从而导致了搜索引擎数据采信度方面的先天不足。
1 H0 ]1 ^9 \+ O0 _6 y6 q( I! h% L% t6 J3 n+ p3 v
如何判定所抓取网页的重要度,如何判定网页信息的可信度,搜索引擎还有很多路要走。
. \, c, N& d7 C$ p: j% u, ~8 W" z ^
4)借鉴商业智能的应用方法,研究搜索用户的行为和需求
" Y6 G. }5 _" r4 v
# G9 L! \/ `4 \; C% s/ w 搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能,同时也是“研究网站用户行为的一个有效工具”。搜索引擎聚集庞大的用户需求信息,用户每输入一次查询,即代表了一种需求。累积并分析“需求数据”具有重要的商业价值。商业智能相关产品可以帮助搜索引擎厂家充分利用“需求数据”,找到更有利的商业模式。
& ^# d- f2 x1 y. I( C
7 t* l1 L& \7 { 事实上,业界早已开始了商业智能和搜索引擎的这种融合。. O7 q+ x, C1 V% G t6 o
|