1.搜索词处理
) ? w% A l+ }7 G% @" @) f搜索引擎在接收到用户输入的搜索词后,需要对搜索词做处理才能进入排名过程。主要处理内容有:. X; r2 K: ^" G, c% F0 {
(1)中文分词
5 @5 m3 D, g0 J! U5 w! g(2)去停止词
7 I1 b3 }% b2 o. R(3)指令处理9 ~' g/ k" \- U; X, L% j6 \6 z. y
(4)拼写错误矫正, z0 }1 e5 Q5 S7 {
(5)整合搜索触发
+ i& [0 E d# x6 Y4 p2.文件匹配' \& q3 p' Y3 J5 D
搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合,文件匹配阶段就是找出含有所有关键词的文件。# X$ L: H b- A0 W3 _5 b
3.初始子集的选择
* u2 E# g7 |3 w& ^7 j, J4 a找到包含所有关键词的匹配文件后,选出页面权重较高的一个子集。
! [$ D8 n$ T" n& G0 r- k/ ~* v4.先关性计算
: ~, l9 q& W+ }3 M- P选出初始子集后,对子集中的页面计算关键词相关性,计算相关性是排名过程中最重要的一步,相关性计算是搜索引擎算法中最令SEO感兴趣的部分。1 i0 I8 k" c4 z4 q: d: @ ^1 h
5.排名过滤+ Q* h5 u3 _5 @1 g! i% L/ d
选出匹配文件子集、计算相关性后,大体排名就已经确定了,之后搜索引擎可能还有一些过滤算法,对排名进行轻微调整,其中最主要的过滤就是施加惩罚。一些有作弊嫌疑的页面,虽然按照正常的权重和相关性计算排到前面,但是搜索引擎的惩罚算法却可能在最后一步把这些页面调整到后面去。
- y6 R7 j' B; o! w1 T7 Y1 F6.排名显示
" a9 j9 t& N V1 w6 U7.搜索缓存
; P: `9 M0 x$ c5 P. s, T如果每次搜素都重新处理排名是很大的浪费,搜索引擎会把最常见的搜索词存入缓存,用户搜索时直接从缓存中调用,不必经过文件匹配和相关性计算,提高了排名效率和反应时间。
, h1 q5 B# i. l0 P0 V6 S v: k& R8.查询及点击日志* l$ S5 C$ Q4 T; t6 D3 f
搜索用户的IP地址、搜素的关键词、搜索时间,以及点击了那些结果页面,形成日志,这些日志文件中的数据对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等具有重要意义。 |