找回密码
 加入怎通
查看: 338|回复: 2

[站长八卦] 分词技术如何在中文搜索引擎中运用

[复制链接]
朱岩 发表于 2013-01-29 09:10:41 | 显示全部楼层 |阅读模式
分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。比如"超柔短毛绒"将被分词为"超柔"和"短毛绒"两个词。
! P& C# I6 j- K* s* n  中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。, w1 T1 Y: w4 S' S
  基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。
. R/ m4 f, g+ U: g  按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。3 f$ J! @# u  j  ?7 t4 e; X5 G
  词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况。! a1 {4 E' [' @8 V; Z# F$ D% p# _
  基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义.
! Z; R' u5 c5 x4 D1 W  C  基于词典匹配和基于统计的分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的,快速高效,又能识别生词、新词,消除歧义。
$ ?: I& x. B! V  中文分词的准确性往往影响搜索引擎排名的相关性。比如在百度搜索"搜索引擎优化",从快照中可以看到,百度把"搜索引擎优化"这六个字当成一个词。7 e& u+ a% L/ G5 n; D" @
  这种分词上的不同很可能是一些关键词排名在不同搜索引擎有不同表现的原因之一。比如百度更喜欢将搜索词完整匹配地出现在页面上,也就是说搜索"点石互动"时,这四个字连续完整出现更容易在百度获得好的排名。Google就与此不同,不太要求完整匹配。一些页面出现"点石"和"互动"两个词,但不必完整匹配地出现,"点石"出现在前面,"互动"出现在页面的其他地方,这样的页面在Google搜索"点石互动"时,也可以获得不错的排名。
* s7 [; {8 P& Y* [淮安做双眼皮:www.83991111.com& H2 D. ~1 K; E6 O
6 X$ n, F) x; F6 _, S, u7 |

' i5 U% }5 n/ l' N% t1 C
回复

使用道具 举报

残阳 发表于 2026-01-14 08:50:37 | 显示全部楼层
这个分享太实用了,刚好能用到,感谢楼主!
回复 支持 反对

使用道具 举报

(り、陌陌 发表于 2026-01-16 20:27:08 | 显示全部楼层
分析得很透彻,很多细节都说到点子上了~
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-4-4 15:24 , Processed in 0.088026 second(s), 23 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表