目前主流的搜索引擎按照其功能大致可以分为可划分为下载、分析、索引、查询4大系统.其中分析系统在搜索引擎的架构中主要承担了网页结构化、网页消重、文本分词及网页重要性的计算(例如谷歌的PR)这四项基本任务.可以说,搜索引擎的分析系统在网站排名等方面起着决定性的作用,通过分析搜索引擎的分析系统,可以更好的指导我们进行网站的优化工作,在这里,笔者根据自己的一些见解, 首先,笔者对搜索引擎的分析系统的工作步骤做了简单的介绍:
& e3 Y5 c( @7 k) v( V9 O6 H+ {8 V# G6 L8 s# T
第一.读取Page库中下载系统通过爬虫下载到的原始网页.
u; _" N# X" R( Z4 C& V- g8 Y+ _4 c$ q9 c# h1 _2 e, n
第二.通过建立标签树并从网页中抽取有价值的属性,完成从原始网页打包成一个网页对象的过程,即网页结构化的过程.
6 k8 ]! {+ b. i6 L
P7 m7 p! Q+ R% p 第三.丢弃冗余的页面,仅保留一个相似或相同的网页传给分词模块,实现网页消重.
6 a' S. t2 R/ R* Z6 D2 k6 \
9 D' w( A" ^* w$ o, D+ X0 G 第四.文本分词模块将网页的正文切分成以词汇为单位的集合., U' U" F& i9 ]$ m& N; p. t
; X4 ]( G T5 Z 第五.最后将分析的结果发往索引模块,进行索引入库.
7 C1 @( _! ? G" ~
1 I$ Q* T. Y; f, f& b0 Z, { 了解到了搜索引擎的分析系统的工作流程,那么,笔者认为,我们应该针对搜索引擎的分析系统做好以下的优化工作.
[; R6 {) ~' V3 M2 n: D5 T
0 _ c, u1 a! ^& F8 Y& x' o 1.从分析系统的第一步和第二部过程,告诉我们要明确需要保留的信息, T7 F. V8 W% s5 Y
6 L7 N7 {/ e) Y S$ W( l 网页是有HTML语言编写而成是一个半结构化的对象,要将其中有价值的信息,例如标题和正文保留下来,而将无用的信息丢弃,例如HTML标签,主要是通过网页结构化,一般来说,TITLE标签,MEAT标签,H标签是搜索引擎认为最重要的网页信息.比如,针对TITLE标签,在搜索引擎蜘蛛爬行的过程中,< TITLE >与< /TITLE >之间的内容往往是蜘蛛们第一个获取到网页的文字内容.除此之外,锚文本,网页正文都是有价值的信息,要加以保留和重视.
2 o( e( x6 e" h8 e* b2 ?! D( w
8 b' `/ t1 x/ ~+ U! J 2.从分析系统的第三步来看,告诉我们要重视网页的内容建设
0 p5 g) |" ?( F G6 Y) h `, ?, w. s% s1 Z
网络中的网页数以亿计,对海量网页进行存储和处理是一项艰巨的任务,而且这些网页中又包含很多相同或者类似的页面.所以搜索引擎的分析系统在正式对网页进行分析之前首先要做的工作就是网页消重.搜索引擎中把这4种页面看做是相同或相似的,两个网页的内容和格式上完全相同、两个网页的内容完全相同,但格式不同、两个网页有部分重要的内容相同并且格式相同、两个网页有部分重要的内容相同,但格式不同.从搜索引擎的分析系统看网站优化,可见网页内容的独特性很重要,所以做好原创是有意义的.
, L \) G" n. W: |$ s9 F
- p) M3 ^/ u `! G( w, B 3.从网页重要性的计算,也就是分析系统的第四五部来看,做好网页的权重是很有意义的$ o! k) d. b! A( y1 U, [+ j. B) W
% {& S; k2 B0 h9 Y( _" | 在这里,拿谷歌的PR值举例,它是Google用来标识网页的等级/重要性.百度也有类似的系统,所以我们应该根据它们的算法,做好提高网页重要性的工作,比如导入高质量的链接,写一些高质量的软文带上网页链接并发布到大型网站,比如提供有价值的网页内容,这些都可以提高网页的权重,具体的做法,站长朋友都知道,这里不再详述., M C3 l. ?7 B
|