记得以前刚开始接触SEO的时候就知道关键字出现在标题很重要。后来知道有分词技术这个说法,对关键词分词,对标题关键字安排都有很大的帮助。刚开始学习SEO的时候,会把重要的关键词一个一个堆积在标题,比如标题会这样写:站长网,个人站长,站长工具,站长下载,站长帮手中国站长网。这样写虽然是可以,但是用户看一个网站,一篇文章标题的时候最好是一句话就可以表达清楚,而不是简单的把关键词罗列出来,尽量让用户读起来能够比较顺畅。
2 E( s0 n" d4 @# P/ v; P) {4 @. S 可以写成:中国站长网提供站长工具,下载和站长资讯,是个人站长们的好帮手。这里就涉及到对分词技术的理解了。
+ Z' S! \' f* Z 分词技术就是当用户提交一个关键词串给搜索引擎查询的时候,搜索引擎要对这个关键词串做一系列的匹配处理的一个技术方法。
* S( Z6 H" T! x/ [ 搜索引擎查询处理方法
; k5 e5 Q+ e- u& Y, L& ~0 k 如果关键词不超过三个中文的话就直接到数据库索引词汇里面查找,超过了三个中文汉字的话就用空格,逗号等分割开来。将用户提交的关键词串分割成若干个词来查询。; a) V5 @5 w) K! \$ Z3 n
比如:丝兰卡假发网销售时尚、非主流假发品牌。搜索引擎就会分成,丝兰卡,假发,假发网,销售,时尚,非主流,品牌,这种分词方法成为反向匹配法。 ^# x F3 R- a% [ [* c
1 z- f& X7 ?3 r+ ]7 }
" G/ u! z/ a z2 ^" Q, o
( Y2 h# c8 ?: T6 s9 N# {) r* K. g 另外再查看这个词有没有重复的词汇,有的话会省略掉。3 d# M* U+ Z% q: V: s
比如:中国站长网提供站长工具,下载和站长资讯,是个人站长们的好帮手。会把出现的四次的站长作为一个词来匹配,默认为一个词。这个就是搜索引擎的查询处理。
9 C4 v }- q% W# m0 k 分词技术发展到目前已经很成熟的了,google是购买第三方公司的分词技术,百度是自己开发的分词技术,在中文分词这块百度要稍稍领先于google。英文的词与词之间是用空格隔开的。这个分词比较好做,比如:I am a Chinese,中文为我是一名中国人,搜索引擎可以识别,chinese是一个单词,但是比较难识别中,国,人是三个字要合起来才是一个词。另外中问分词也有人叫切词。
% E D9 Y' N' _/ P 相关排序和搜索引擎
4 J0 m: Z$ ~( ?, l) |0 T+ {$ F 搜索引擎的工作就是把网页搜集起来,然后按照一定的规则进行排名,目前估计已经有超过100亿的网页被收录,而且还在不断增加。搜索引擎就是把跟用户提交的关键词最相关的网页呈现出来,我们看到百度的76页现象就是这个问题,因为把所有的网页都做排名的话没有多大意思,用户只要最相关的那部分就可以了。也可以叫相关排序。我们在做关键词分析的时候尽可能用相关度比较高的长尾关键词来做也是基于这点理论。- D6 L7 ^ R5 l1 V$ C
1、分词技术利用字符串匹配的分词方法可以分为三大类:
" `6 i! N+ ?3 C& `# R$ l 第一种正向最大匹配法,从阅读习惯左到右分词。7 G7 ?4 i# _& o7 q+ }
第二种反向最大匹配法,跟第一种反过来,从右到左。
4 A$ }8 C Z+ Y4 Q 第三种最少关键词分词法,就是说把一句话尽可能分出少几个关键词。比如:丝兰卡假发网,销售时尚非主流假发会分出:丝兰卡假发网、销售、时尚、非主流假发。
B2 P2 u; w; C1 J' z; g& p 搜索引擎一般会是上面的三种方法组合起来使用,尽可能减少分词中的错误率,为用户提供匹配度最高的网页信息。9 d5 N. x9 D4 G. c; g- O1 C, k; n
2、基于理解的分词方法3 E4 w& ?; r' l/ w; M9 K
这种方法就是利用对整个句子的理解,通过对语法,语义,词义,描述等来理解用户的需求处理歧义的现象,也叫词义分词法,这种方法目前还不是很成熟,处于测试阶段。1 O# S9 \& C6 ?, M9 ^' ?. M8 O
3、利用统计分词的方法
* U2 Z3 X# u k* @& @ 这种方法就是利用自身数据库来长期检测出那两个词同时出现的次数最多,相邻的频率最多的时候就有可能构成一个词。不过这个方法有时候出现的错误也比较多,比如会经常看到一些,我的,之一,有的等,对这些词识别就比较差了。百度的相关搜索功能对这个统计分词方法比较有帮助。6 F* E7 a3 ?5 x% l2 s$ Z7 ^ U' |
|