假设一个由4个页面组成的小团体:A,B, C 和 D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C 及 D的和。
+ p8 ~: Z9 [1 \, |3 d6 N( c5 K
- S* G S! i% [ PR(A) = PR(B) + PR(C) + PR(D)# n, k% q2 G) e- Z0 T/ \0 b
1 G: n1 [* t- W2 G& J) ]4 x
继续假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的 PageRank 上。
, b% Q: \6 z2 D: D4 p/ p. e! h4 K- ~4 }2 A
PR(A) =PR(B) /2+PR(C) /1+PR(D)/3
6 a7 O/ j4 Z8 |, A
9 A4 O7 t# Y4 e' j" t 换句话说,根据链处总数平分一个页面的PR值。
B8 J. C T6 Q
( Z4 L2 T$ h: [* k1 I% T PR(A) =PR(B) /L(B)+PR(C) /L(C)+PR(D)/L(D)
/ f, C* f0 E; F9 p" [6 U$ h [$ u6 [. {1 x: r& N
最后,所有这些被换算为一个百分比再乘上一个系数q。由于下面的算法,没有页面的PageRank会是0。所以,Google通过数学系统给了每个页面一个最小值1−q。
: w! W Y! S4 F( r& i: p& {7 R" n" z
PR(A) =(PR(B) /L(B)+PR(C) /L(C)+PR(D)/L(D)+...+PR(N)/L(N))q+1-q5 n) e8 L* H! M) j, l1 d) m. [: F( o
3 }: D# k0 a4 P8 _/ Q% k& ?
所以一个页面的 PageRank 是由其他页面的PageRank计算得到。Google 不断的重复计算每个页面的 PageRank。如果您给每个页面一个随机 PageRank 值(非0),那么经过不断的重复计算,这些页面的 PR 值会趋向于正常和稳定。这就是搜索引擎使用它的原因。3 h; \% i1 [% ^" C" [6 k
a; s: o- E, C9 N 其中,PR(A):指网页A的佩奇等级(PR值)( _* z1 p" k% V& d3 D
2 u0 \5 M& {* B R
PR(B)、PR(C)...PR(N)表示链接网页A的网页N的佩奇等级(PR)。N是链接的总数,这个链接可以使来自任何网站的导入链接(反向链接)。& w6 X5 {3 D6 ?( I: l
2 ?. k# g, e; `
L(N):网页N往其他网站链接的数量(网页N的导出链接数量)
2 W. K, e" N7 ^
( T: F4 Q/ z' [8 t9 L! a9 \ q:阻尼系数,介于0-1之间,google设为0.85.
4 I+ K& {" T1 V" ]5 r
4 k: B; d: ~% S! {, E 从上面的公式我们可以看到网页A的PR是由链接它的其他网页L(N)所决定的。在网页L(N)中如果有一个链接指向网页A,那么A就得到了一个 “投票气而这个投票来自网上任何一张网页。每个“投票”都是表示一份“支持”。越多的链接指向网页A,网页A的PR值或者等级就越高。没有链接就是没有一个网页支持A。" @" _2 V7 J8 \; ~ s
& A: m5 L% ^7 q7 w; { 但是不同网页的PR值不同,所以不同的网页给网页A的投票权重是不一样的。* s5 s3 a8 L# }7 v' L% c `
9 Q* z* ~/ R0 u2 @! w3 y 完整的PR值计算方法! J/ k/ \& l* j8 b# t
. ~# K1 }: ^5 z5 m5 R/ w
这个方程式引入了随机浏览的概念,即有人上网无聊随机打开一些页面,点一些链接。一个页面的PageRank值也影响了它被随机浏览的概率。为了便于理解,这里假设上网者不断点网页上的链接,最终到了一个没有任何链出页面的网页,这时候上网者会随机到另外的网页开始浏览。
O2 j6 [. l/ E) d% z" e" Q' b! P% F# g W' p2 T9 B' T) ?4 e
为了对那些有链出的页面公平,q = 0.15(q的指阻尼系数)的算法被用到了所有页面上,估算页面可能被上网者放入书签的概率。
% |7 Z0 |9 |5 O. |8 i
" g4 Y6 x, S z2 l, A3 z' N 所以,这个等式如下:
3 k+ u1 ]# A6 k! m% I) g4 }0 E( Y% |' o, B' |
p1,p2,...,pN是被研究的页面,M(pi)是链入pi页面的数量,L(pj)是pj链出页面的数量,而N是所有页面的数量。' W7 u, u) ?9 _
" ^. M+ o/ }3 l5 P ^7 B PageRank值是一个特殊矩阵中的特征向量。这个特征向量为
) I. ^' i$ E1 U5 ~ Y; b- f/ t
8 W5 e- O$ `1 o/ C- l) T# \ R是等式的答案7 W% t! m$ d, z" \, B- N: @
- P* f7 a+ [# N, O& r 如果pj不链向pi, 而且对每个j都成立时,等于 0' @8 z+ u: ?( P" [8 k1 f
3 P* Y- y/ U- U3 I6 ] 这项技术的主要缺点是旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。+ k7 }4 Q1 R: e9 O F3 I0 y9 a
- m ~6 H w/ k0 Y1 } 这就是PageRank需要多项算法结合的原因。Google经常惩罚恶意提高PageRank的行为,至于其如何区分正常的链接交换和不正常的链接堆积仍然是商业机密。
& j* Y/ ]3 |7 Z) G& G% p- y; z( S6 r2 o% a) I
但是我们始终坚持一点是,大家不要刻意的去追求PR值,因为影响排名的因素有上百种。建议网站设计人员可以充分认识佩奇等级在google优化排名中的重要作用,从设计前的考虑到后期网站更新都要考虑一下佩奇等级。从而很好的利用google PageRank。 |