分词技术概述

编辑-郑娟 · 发表于 2013-02-19 17:20:03

分词的原理百度是如何来分词的呢？分词技术现今非常成熟了。分为3种技术。
1.字符串匹配的分词方法这是种常用的分词法，百度就是用此种分词。字符串匹配的分词方法，又分为3种分词方法。
（1）。正向最大匹配法
就是把一个词从左至右来分词。
举个例子：“不知道你在说什么”
这句话采用正向最大匹配法是如何分的呢？“不知道，你，在，说什么”。
（2）。反向最大匹配法
“不知道你在说什么”反向最大匹配法来分上面这段是如何分的。“不，知道，你在，说，什么”，这个就分的比较多了，反向最大匹配法就是从右至左。
（3）。就是最短路径分词法。
就是说一段话里面要求切出的词数是最少的。
“不知道你在说什么”最短路径分词法就是指，把上面那句话分成的词要是最少的。“不知道，你在，说什么”，这就是最短路径分词法，分出来就只有3个词了。
（4）。双向最大匹配法。
而有一种特殊的情况，就是关健词前后组合内容被认为粘性相差不大，而搜索结果中也同时包含这两组词的话，百度会进行正反向同时进行分词匹配。
2.词义分词法就是一种机器语音判断的分词方法。很简单，进行句法、语义分析，利用句法信息和语义信息来处理歧义现象来分词，这种分词方法，现在还不成熟，处在测试阶段。
3.统计分词法根据词组的统计，就会发现两个相邻的字出现的频率最多，那么这个词就很重要。就可以作为用户提供字符串中的分隔符，这样来分词。
比如，“我的，你的，许多的，这里，这一，那里”等等，这些词出现的比较多，就从这些词里面分开来。

西万路小混混 · 发表于 2025-11-09 20:49:25

分析得很透彻，很多细节都说到点子上了～

青云神剑 · 发表于 2026-01-22 14:07:25

这个思路很新颖，打开了新世界的大门，谢谢分享

Chilsion · 发表于 2026-03-15 22:40:31

楼主辛苦了，整理这么多内容，必须点赞收藏

		自动登录	找回密码
密码			加入怎通

[其他] 分词技术概述