本帖最后由 潘多拉/fw之吻 于 2013-4-23 16:01 编辑
. p( i N/ |& g# m' Y
* T' ^# F8 x6 ]" ?9 W5 \4 B 由分析索引系统程序对收集回来的网页进行分析。提取相关网页信息(包括网页所在URI,、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等)。根据一定的相关度算法进行大量复杂计算。得到每一个网页针对页面内容中及超链接中侮一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
* j0 @: B, d3 d1 W7 Z; T: F5 e6 Y5 o- A0 G6 k m9 ?! B. E7 w x
当用户输人关键词搜索后。由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后。由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。. g/ Q2 Y* u( h5 B7 B$ A
3 @' i& Z! Q& a* g 搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几个月。也可能对不同重要性的网页有不同的更新频率)。更新网页索引数据库。以反映出网页内容的更新情况。增加新的网页信息。去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。
( j$ s2 I5 {1 P5 J' M
% a, m" l* H( z7 s Q0 N0 O4 N 互联网虽然只有一个。但各搜索引擎的能力和偏好不同。所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库存储了互联网上几亿个至几十亿个的网页索引。数据量达到几千兆甚至几万兆。但即使最大的搜索引擎建立超过20亿个网页的索引数据库。也只能占到互联网上普通网页的4喇不到。不同搜索引擎之间的网贞数据重叠率一般在70%以下。使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容。是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。: h, A/ r# ~3 |$ O; `: _- |9 p2 ~+ S% y
y% R2 n, C% G( A0 w8 H(编辑:咖啡) 1 i) M! ]. h0 j4 w$ j s: ]' ]
* w+ r5 S' w C& ^7 G0 H% _1 j- u
# J m4 z: W- \2 p+ X# C 【推荐阅读】* R0 b4 o; {# f }+ G( s# t
- h9 \* y% N N* b, w& e s8 q
礼品茶具 http://www.gogochina.cn/chaju/
' N- l! R' Y% s! F |