& d' o7 a) f6 c5 G7 C9 z1 s- A4 y D2 _, C6 A' ~
提取文字中文分词去停止词消除噪声去重3 d! Z' `) v$ Q6 q7 B$ O
只要是做百度优化的seo人员,心理肯定都是非常郁闷的。因为百度会时不时的给咱亲爱站长来一个“吻”,真是一吻惊人啊!不过大多数的时候,百度还是很好的,只要了解百度蜘蛛的属性,就会发现原来度娘也不是那么难以接近!!!记得在一篇文章里面说过,百度收录难是所有站长的心声!不过今天蛋蛋可没什么闲心去管百度收录不收录的问题,今天咱要说的就是如何提高收录量其中一项——搜索引擎如何识别网页原创文章!要了解这个问题,咱就得知道搜索引擎如何预处理网页的,下面摘自zac大作《seo实战密码》,当然笔者会进行伪原创。
' y7 i" G0 x" T; T提取文字- Q7 y( _. k' }3 X( F- S2 [
现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面中的HTML 代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML 格式标签、Javascript 程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML 文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。除了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如Meta 标签中的文字,图片替代文字,Flash 文件的替代文字,链接锚文字等。5 q- I3 b4 _( C, @
中文分词
6 c& E$ E0 Z0 N8 d 搜索引擎存储和处理页面,以及用户搜索都是以词为基础,因此搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词!搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,SEO 人员可以使用H、B、strong等特殊标签或者其他方式将词语标注出来确保搜索引擎将咱要做的关键字当初一个词来对待。分词是中文搜索引擎的基本,比如“瑜伽练习”将被分词为“瑜伽”和“练习”两个词,常见的中文分词方法有2种——统计匹配和词典匹配!6 t# c, j1 Z# v( R! N/ p, T
基于统计匹配7 D4 t! t4 K& j* T5 w
基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法优势是对新出现的词反应更快速,也有利于消除歧义。& j4 j- g; L4 d R- u) ?; w
基于词典匹配
, i2 H* e* Q3 P9 i) S ^6 i, j 基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已 有的词条则匹配成功,或者说切分出一个单词。按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配 和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。词典匹配方法计算简单,其准确度很大程度上取决于词典的完整性 和更新情况。
& x- J e/ }. n8 h" F* v去停止词
a8 H8 J% U/ u) Q 页面内容中出现的“的”“啊”“哈”之类频率很高却对内容没有任何意义的词,将会去处理掉。像这种频率很高却对内容没有任何意义的词被称为停止词,搜索引擎在索引页面之前会去掉这些停止词,减少无谓的计算量。
5 {$ \6 U1 i+ \# i. i& J$ x消除噪声
; F, G) Y7 Q$ K+ e5 v7 E 页面上有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等,这些区块属于噪声,对页面主题只能起到分散作用。因此搜索引擎需要识别并消除这些噪声,消噪的基本方法是根据HTML 标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。' N N- e. F9 m' N* b4 O' ?* I$ L
去重
3 F# E) ~$ e4 { 在分词、去停止词、消噪之后,搜索引擎还需要对文章进行去重处理!大家都同一篇文章经常会重复出现,如果用户搜索时看到的都是同一篇文章,用户体验就太差了。因此搜索引擎希望只返回相同文章中用户体验最好、内容也最相关的一篇,所以需要识别和删除重复内容,这个过程就称为去重。去重的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。
( H4 l m4 S, j! c Q: A2 N* Q 笔者需要指出的是,搜索引擎毕竟是电脑,还有许多算法漏洞,不可避免的造成很多误杀,当然也成全了很多漏网之鱼。就像相处很火的某某伪原创软件,可读性真的是NB啊,不过随着算法的逐渐完善,一切问题都不是问题,但是要记住,没有做不到的,只有想不到的……理解了搜索引擎对页面经常的预处理,大家是不是想出了自己的一套对策呢?所谓上有政策,下有对策嘛!; n0 o, X$ l' d9 l6 d4 k
' h- I6 l/ ~( V: s1 |5 O5 O; U$ y
本文来源:http://www.inhd2.com9 p7 Q; d" O/ W% c* t* s
; U4 B2 X1 R ?& C |