找回密码
 加入怎通
查看: 864|回复: 1

[站长八卦] 浅析搜索引擎的分析系统来做好网站优化

[复制链接]
浅浅、笑时光 发表于 2012-03-13 11:42:10 | 显示全部楼层 |阅读模式
  目前主流的搜索引擎按照其功能大致可以分为可划分为下载、分析、索引、查询4大系统.其中分析系统在搜索引擎的架构中主要承担了网页结构化、网页消重、文本分词及网页重要性的计算(例如谷歌的PR)这四项基本任务.可以说,搜索引擎的分析系统在网站排名等方面起着决定性的作用,通过分析搜索引擎的分析系统,可以更好的指导我们进行网站的优化工作,在这里,笔者根据自己的一些见解,  首先,笔者对搜索引擎的分析系统的工作步骤做了简单的介绍:  G5 d; ?/ \% i& g

) R" @  `1 z! {! }5 B5 z  第一.读取Page库中下载系统通过爬虫下载到的原始网页.9 e0 t+ L9 o& I
  t* A- j! ?& \9 |9 [# i
  第二.通过建立标签树并从网页中抽取有价值的属性,完成从原始网页打包成一个网页对象的过程,即网页结构化的过程.+ G& x( d3 D' x$ l! T4 P# r5 t
/ X1 o/ E( T9 Y* c6 ~! M
  第三.丢弃冗余的页面,仅保留一个相似或相同的网页传给分词模块,实现网页消重.# a+ Q: X( T' i1 ?3 f. j$ c/ `3 T
- K/ u8 `  L- W; b
  第四.文本分词模块将网页的正文切分成以词汇为单位的集合.
1 d: Y& I$ j% u6 c
/ E, C/ ]2 {$ C4 o) P  第五.最后将分析的结果发往索引模块,进行索引入库.
5 b" |5 T7 v( I) n7 B# [& ]2 F( C
) |7 ?9 @3 p; A* |: q  了解到了搜索引擎的分析系统的工作流程,那么,笔者认为,我们应该针对搜索引擎的分析系统做好以下的优化工作.* l- {$ [) j6 M) P6 ]0 g

) k; C) ^3 h0 v2 u- z# O, b  1.从分析系统的第一步和第二部过程,告诉我们要明确需要保留的信息
/ h& Q$ y# [  j" k* t' n/ S2 A
" t4 x3 Q1 z9 e% t# X/ I3 S  网页是有HTML语言编写而成是一个半结构化的对象,要将其中有价值的信息,例如标题和正文保留下来,而将无用的信息丢弃,例如HTML标签,主要是通过网页结构化,一般来说,TITLE标签,MEAT标签,H标签是搜索引擎认为最重要的网页信息.比如,针对TITLE标签,在搜索引擎蜘蛛爬行的过程中,< TITLE >与< /TITLE >之间的内容往往是蜘蛛们第一个获取到网页的文字内容.除此之外,锚文本,网页正文都是有价值的信息,要加以保留和重视.
2 _& q: p- b7 }& q
) u. U. E0 o: O4 f9 E) u1 T; x, v0 Y  2.从分析系统的第三步来看,告诉我们要重视网页的内容建设5 P6 |- x- f, u
' @& V' Y/ {0 ]# ~
  网络中的网页数以亿计,对海量网页进行存储和处理是一项艰巨的任务,而且这些网页中又包含很多相同或者类似的页面.所以搜索引擎的分析系统在正式对网页进行分析之前首先要做的工作就是网页消重.搜索引擎中把这4种页面看做是相同或相似的,两个网页的内容和格式上完全相同、两个网页的内容完全相同,但格式不同、两个网页有部分重要的内容相同并且格式相同、两个网页有部分重要的内容相同,但格式不同.从搜索引擎的分析系统看网站优化,可见网页内容的独特性很重要,所以做好原创是有意义的.- d: X3 B& t3 [/ m. q0 G
' v$ M% O" X+ f" u) j
  3.从网页重要性的计算,也就是分析系统的第四五部来看,做好网页的权重是很有意义的% ?, A8 V, L6 V! V& W; z

7 E& @( A8 s% ]6 d& U  在这里,拿谷歌的PR值举例,它是Google用来标识网页的等级/重要性.百度也有类似的系统,所以我们应该根据它们的算法,做好提高网页重要性的工作,比如导入高质量的链接,写一些高质量的软文带上网页链接并发布到大型网站,比如提供有价值的网页内容,这些都可以提高网页的权重,具体的做法,站长朋友都知道,这里不再详述.
: g: N: c( D3 L' @0 _: w5 i
回复

使用道具 举报

hongzi 发表于 2026-03-07 21:53:28 | 显示全部楼层
说得很实在,没有夸大其词,这种真实分享太难得了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 加入怎通

本版积分规则

QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

GMT+8, 2026-3-14 22:40 , Processed in 0.066653 second(s), 26 queries , Gzip On.

免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

Powered by Discuz! X3.5

快速回复 返回顶部 返回列表