找回密码
 加入怎通
查看: 1070|回复: 1

[SEM行业] 百度分词理论之标题的设计实例解析(上篇)

[复制链接]
南光的世界 发表于 2012-03-27 12:46:58 | 显示全部楼层 |阅读模式
       影响一个页面在搜索引擎排名最重要的因素之一是相关度,而最直接体现一个页面与用户搜索行为是否相关的就是标题,那么想写好一个标题你就不能不去深入的了解搜索引擎的分词原理!以百度为例,经过十年左右的完善,在中文搜索里百度已经是一个非常高效的搜索引擎,大家也和点水一样肯定都知道一个高效的搜索引擎工作肯定会涉及到很多为人知的技术点,但我们如果把复杂的搜索引擎工作简化为三个步骤那么分别是:查询,分词,匹配。那我们通过实例来看看搜索引擎是如何处理的呢,为了能理解的更加直观,我们以水手(年轻时很喜欢这首歌)为主关健词在百度进行实验。
# e% D* C, W6 }" Z% S0 H) ^  k$ |9 N5 [
  一 搜索引擎如何处理查询' F( b9 r0 s- B& H
9 l+ \, I, s& [% P
  1,搜索引擎的被动行为。
5 y0 s% r/ o5 f/ {! P3 Q+ E" ?3 Q# k; h* h# P. V! y, y1 F
  如果用户根据自已的意愿在搜索的关健词的时候有加上空格,标点,那么搜索引擎会优化按用户的行为进行查询,这个应该很好理解!例如:百度搜索 郑智化水手 与搜索 郑智化 水手,所返回的结果会是不一样的!可能这个例子还并不直观,举一个更直观的例子,分别搜索:郑智化 学 和 郑智 化学。搜索结果分别如下图:
& K0 ?3 I! O( G) o % p9 o6 d7 r% L, |% y

* L' M# K6 k  \- m: W( G' _  看上图就很直观了,搜索引擎会优化考虑用户的查询行为。6 ?7 E! ?# Q( ~  @
: U, P4 U6 J" \# b0 Z# k+ n
  2,搜索引擎的主动行为0 ]$ U, [0 X  K6 U7 ^2 b1 T
8 \# X: d* }) u) z4 s
  搜索引擎收到用户的搜索内容,会根据自已基础词典与特殊词库为用户的查询进行主动分词,如搜索:郑智化水手 ,百度会根据其搜索词库(猜测为:人名库+歌名库)智能将郑智化与水手这两个词分别进行查询,搜索结果如:
/ K# T) }; M+ ~- R0 T
$ d# z: D) S" P0 O7 ?, x+ }/ Y& r* O; P6 C3 n' u
  那么如果搜索内容中包含同时中文与英文百度是如何处理的呢?百度会将英文做为单独的一块来处理,然后英文前后的词也做为一个单独的块。试搜索:郑智化bt下载,结果如下:
, Z! h8 ?0 T: [7 U' O8 G  e& @+ F, u' [) l& o/ @5 F- ?" C9 @
4 H  F6 w8 ^8 d- r+ Q
% m; u9 |: r9 o/ I
  二,搜索引擎如何进行分词与匹配# \! l2 F/ d2 R9 `- {  u; o
) s% L- U  l2 B7 w( R0 {
  分词根据字符串进行匹配,最常见的有三种分词匹配法,分别为:正向最大匹配法,反向最大匹配法和最短路径分词法。
, O2 ]+ ~( p4 N+ y% i( Q3 P
4 {. Q, k' _. ~6 M1 G/ Z7 d# l1 k  1,什么是正向最大匹配法呢?
4 l- ^# g0 T4 x' Y! M1 {, l1 c
8 Y# U' P; H5 Y& `) O  简单点说就是从左到右进行分词,例如百度:武林外传说,武林外传与传说是两个不同的词,根据用户搜索习惯与词库分析百度会返回一个正向最大的匹配,也就是分词为:武林外传 说。搜索结果如下图:3 e- {$ y5 A3 `( _2 W
4 C" x. z8 e' H6 {: q: H

  G2 l  G' E+ a& d9 m7 C  2,什么是反向最大匹配法, O2 a% h# _7 r$ ^

) K# T5 h( n7 [2 p& M  反向分词固名思义就是从右向左进行分词了。回到刚才的例子,百度:郑智化学,如果按照正向分词那么我们应该得到的分词结果是:郑智化 学。那么百度搜索的结果为什么却不是这样呢?而是分成了郑智 化学。如图:
* Z9 A- k- f7 W5 ]* F
' G$ S0 @/ d+ G! p/ O) u
2 f" Y; O- |: Y  这就是因为百度搜索结果中是用了反向分词进行匹配!
/ w+ K- e+ D* ]3 N8 S# \7 l7 z
  3,正反向同时分词匹配
8 i( Q9 r6 a: R# H; z  O/ ^% F2 A5 w# U0 l: J, a
  而有一种特殊的情况,就是关健词前后组合内容被认为粘性相差不大,而搜索结果辊也同时包含这两组词的话,百度会进行正反向同时进行分词匹配,如搜索关健词:北京华烟云,返回结果如下:
$ `1 `- O9 `5 m) p/ U/ i) ~; c/ u6 D' |

/ A+ l% s7 A( S' m! D! p, G! j9 `9 }3 I( Q! c+ Z2 L# k' x
  4,什么是分词最少化; v3 x4 G9 s' W: o

2 c; V0 D- O  H  指:分出来的词数应该是追求最少化,以搜索:武林外传说 为例,理论可以分成:武林 外 传说,可是百度只分成了 武林外传 说 ,即能尽量将分组数减少,能分成两组的尽量不分成三组!" l  e1 m5 k; J% Q% i
) b. g. Z: |+ v+ v7 J
  只有对搜索的分词技术基础原理进一步了解之后才能知已知彼,有针对性的为网站首页,内页设计标题,从而更好的布局长尾词,让流量最大化。8 J. K$ {" q, x( Z+ j; `$ n3 _
6 g6 A- }! p- c; v( \
  那么理解了搜索引擎的这些分词原理后如何合理利用进行标题设计呢?如何让行业网站长尾词策略的作用得到充分发挥?让流量倍增?点水在下一篇将进一步通过实例来详述行业网站如何进行标题设计和长尾词布局的方法!
回复

使用道具 举报

cq1779784001 发表于 2026-03-02 12:14:49 | 显示全部楼层
完全赞同,我也是这么认为的,英雄所见略同~
回复 支持 反对

使用道具 举报

2026年3月23日真牛社区(fd.znbgj.com)签到记录贴
我今天最想说:「www.hzzdsw.com 加油」.

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-24 05:36 , Processed in 0.166579 second(s), 28 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表