找回密码
 加入怎通
查看: 437|回复: 1

[站长八卦] 百度搜索算法总结—网站关键词分词算法

[复制链接]
刘乐 发表于 2013-02-16 21:33:39 | 显示全部楼层 |阅读模式
一、关于华文分词:
, {) d3 ?( x- }# }  1.华文分词难度剖析# E. j7 s- k" L- `
  首先要申说下的是:普通用户的搜索与做SEO还是更大说谙熟网络搜索用户的搜索习性是十分不同样的,而可巧普通搜索用户是百度搜索的基础力气。在开头 赘述 这一点儿是蒋鑫鹏为了表现其对于百度搜索算法中的华文分词的看得起。因为,对于百度google这么的第二代搜引得擎来说,采用的检索技术主要是有赖关键字来 般配的,而用户对于网站关键词的明白与机器手续对于网站关键词的明白是有巨大距离的。4 S# R: r5 o+ ^& @* J
  在华文分词方面百度胜过了Google,这是baidu制胜google的关键因素之一,华文的分词比英文要复杂得多(同等与华文分词同样麻烦的关紧 语言 还有日语、韩语、俄语,这也是Google没辙在这几个地区制胜的端由之一),蒋鑫鹏在这搭因为篇幅不做赘述,有兴致的朋友可以研讨一下拉丁语系(以英 文为例)的造句与华文造句的差别,华文造句不单同义词众多,而且语序变动无常,副词太多(主谓宾以外的定状补,叹词等等)。
' c3 B0 X( M! D/ T8 a  
. k' k6 j# X6 s$ y; l0 P  简单举个例子"百度若何名次""百度是若何名次的""百度怎么名次""百度是怎么名次的""百度若何排位""百度怎么排位""百度按啥子名次""百度 靠什 么名次""百度的搜索是怎么排位的"……这几个短语短句至少都包含一个意思"百度搜索结果的名次是啥子规则(原理)",除此以外,每个句子都有其它的含 义,如这些句子还包包括"怎么做百度名次(实行这个目标的办法)""百度是怎么施行搜索名次的(原理实行的过程)"……2 d8 f. b# v. ?" c+ d
  拿上头的例子来说:当用户输入以上短句时(多数情况下,普通用户把百度看做是万能的,所以才搜索SEO开来如此不合规则的搜索行径),百度要迅疾的响应出用户需要的结果,这个时分,百度面临的核心问题是:
0 Q) w' j4 {6 s- S' Y  A.首先要晓得用户是要搜啥子(语义剖析,见"二");1 c8 P. F; w- O! E5 [5 n( C( P3 K) G7 {
  B.其次因为百度的检索形式现下毅然以网站关键词般配技术为主,所以要对用户的搜索施行分词(下一段将剖析百度若何分词);
: C8 F6 m% }, N/ x" C  C.而后百度要通不为己甚词分出的结果,去数据库中检索般配的快照;6 f( N6 C. ~; D
  D.上一步只是检索出来,还要施行第四部的名次,这个时分已经不是挑战百度的难题了(虽然在SEO看来,这一步委实是十分艰难的)2 b1 g) u9 p, U
  E.第五步要将达成的结果回返到搜索页面给用户使役,而且要完成其广告的投放(百度竞价广告),并要惬当推广自个儿的产品(百度晓得、百度文库……)写的长处乱,SEO顾问蒋鑫鹏在此致歉,扑空更好的陈述形式,望朋友们整理发扬光大。7 a- c. C9 v8 R+ S; w: r. [- Z
  2.百度华文分词形式:
5 a: E/ {* s' \5 J  c# L* }  百度对于华文的分词不只是大量的用户搜索(这点不一样于Google,百度毕竟是植根于中国文化的,对华文更理解),而且还有庞大的华文词典数据库作支 撑, 而且动态介入了搜索热词,搜索行径造词等技术,【从近期百度算法的调试看,百度比曾经更加尊重用户的搜索行径,就是用户的输入为首要,百度匡正次要,这点 那很关紧哦】下边以范例来说,用户搜索"百度若何名次?"时的分词:1 f9 j' `8 x! c
  A.洒脱瓜分:涵盖标点符号、空格引动的瓜分,这是首要因素,譬如还是"百度 若何名次"这么的搜索行径会被百度首先划分为"百度"、"若何名次",这一点儿是肯定的,要明白用户搜索的行径意向,首先是要尊重用户的搜索行径;(这是 SEO顾问蒋鑫鹏依据热战中的打量总结出的,做SEO的众多朋友可能没注意到,在此提个醒)
- V- i* W/ W8 E, S2 `  B.华文词库瓜分:不难明白,"百度若何名次"将被分为"百度""若何""名次"这几个词,因为这是华文词典里存在的词,百度有庞大的华文词典库支撑,这个不是难度;: H3 B& x: V  i% i/ n0 k7 U
  C.分词组合分词:B中的分词显然是不够的,要更能明白用户意向,务必保障语义接气,那么那三个词可以组合成"百度若何名次";"百度若何"+"排 名"; "百度名次"+"若何";"若何名次"+"百度"以及这几个词颠倒的组合,关紧程度按照顺序优先原则,紧继续是倒序和双向序列的分词组合,剖析切分有个基 本的原则就是最少的切分。2 F9 w7 u4 P% w; V& o
  以上三点是通常意义上的分词,除此以外,还有更麻烦的分词需要百度办理,见后几点。
( k) M" l% D9 K  D.分字:假如用户搜索"百 度 如 何 名次"的时分,百度也是不得已的,因为你不得判断出来用户就是在搜索"百度 若何 名次",还得尊重用户搜索行径,所以,只得进一步将华文词施行分字:"百""度""如""何""名次",而后在施行组合分词,组成不一样的词组去数据库中 般配。8 b/ Q* L5 c* h: l6 w; k: N
  E.别音字/别字:如有人搜索"白度若何名次"其实是误将"百度"打成"白度",那么百度还要匡正这种不对,但近期的调试看,百度不像曾经经过词 库近 义般配来施行纠错【而更多的是以用户搜索后浏览的行径积累的数据来为纠错做准备】(如搜索"白度"的众多用户最终花更多时间在"百度"网站关键词页面上,那么 百度之后对于"白度"的搜索纠错会侧重到"百度"上!: k( z/ V- |. C
  当然,这个词是蒋鑫鹏举例申说,其实百度搜索"白度"不是这么的,例子可以参见百度的"美规车"查看,百度会提醒还是说试探你"您要找的是不是: 美规车"),此外,百度对于纠错经过搜索下拉框相关词引荐、搜索页面底部"相关搜索"、百度晓得(用户量巨大,是百度搜索的关紧补给)来施行纠错数据的统 计与纠错指导。- @  }$ m. }7 J
  F.新词:新词的出处普通有两种:a.近期流行语导致,这个百度的数据库会依据用户搜索行径积累的数据以及网络热词监测数据来施行调试补给到词库;b.语言新词/用户造词,这个主要是靠搜索行径累积的数据调试,也针对局部语言新词人办公补给。文章转自:http//
( r; D2 S; x+ W2 ~. P& E. v8 ~
回复

使用道具 举报

知足常乐 发表于 2026-03-03 18:56:44 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 加入怎通

本版积分规则

QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

GMT+8, 2026-3-16 09:37 , Processed in 0.359127 second(s), 24 queries , Gzip On.

免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

Powered by Discuz! X3.5

快速回复 返回顶部 返回列表