|
|
Google搜索引擎习惯$ B! t3 ~. m- s" L8 ~
3 e4 |" M5 s: C7 k Google作为全球最大的多语言搜索引擎在发展历史过程中形成了自己的网页收录习惯,也建立起自己的一套标准。研究Goolge收录网页的习惯有利于更好迎合Google搜索引擎的口味,达到提高网页收录量和收录排名的目的。
, i0 t- d7 n/ u* n
2 k' ^5 i7 { w3 m3 r, r
5 x2 R7 H/ ~& i: }+ R* S- N) O2 F: X7 w2 Y- C5 K
我们暂且不研究Google对其他语言的收录,就汉语而言,Google收录有以下特点:# [9 N5 u; [) @, h6 H0 r
5 d% q5 t8 o6 C9 y8 |$ Z! U4 z
* C) L; z) [8 m u8 u' i
/ u: D- W9 i+ l3 T; A9 q$ ?: ^0 a6 i: { 1、敏感度较高,反应较快) t( E8 `: Z Q+ X9 b; N# _- ~
$ i. V6 j* D$ {) M Google对新建的网站具有较高的查知性,当然,新建的网站必须要有外部链接或者向Google递交过网站登录信息。否则,即使Google的搜索技术再厉害,一个只有站长一个人看得见的网站是很难被Google发现的。Google收录新建网站的两个途径是:第一,通过网站的外部链接;第二,通过向Google提交网站登录数据。一般而言,后者的收录速度相对较快,而前者则要视Google对新建网站的外部链接网站的收录频率而定。假如Google对外部链接网站的评价高、收录频率高那么其发现新站的速度也相应地高,新建网站被收录的日期就会被提前。
& `9 c% U, U- P0 z- S* R
$ i% b$ W% n3 i* l9 b, `2 x$ L1 _& @* H" `! i( \% G* A! ]
2、并重相关性和重要性
, J) u- q1 _" W2 t6 F: m; c" h- v. ^
Google 使用 PageRank 技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定查询的相关性之后,Google 才将最相关最可靠的搜索结果放在首位。这也是Google收录网页的特点之一。7 b$ C3 \4 j3 O
3 U3 Q1 U6 g4 F a& e- b
( e# A+ r: t. g! G3 F4 k 3、变化较快、机动性较高
/ j, n) {0 e2 {% `$ [! O) D0 k% g( Y1 g) v& W; F9 I% p% u( S
Google 漫游器会定期抓取 Web,将大量网页列入索引。稍后完成的下一次抓取会注重到新网站、对现有网站的更改以及失效的链接,并对内容的变化在搜索结果中加以调整。, E& L) U" S3 _9 g
' J/ K6 `' D- k6 d
9 I* u5 y) B, }. j7 \ 4、较重视链接的文字描述
4 L y+ Z8 Y6 v. u* b. C9 G
# E4 o" @ a9 p( [+ q7 U Google会将链接的文字描述作为要害词加以索引,所以我们在作友情链接时千万要仔细设计链接的文字描述,使之既符合网站的定位又不失相关性,以此博得Google的信任。# k* o1 B, E0 Q/ }8 r1 Y( X
/ [3 m8 Z2 G3 u) ?: [9 [
+ e. _2 q5 W/ P+ |/ I- C$ o3 K" U0 k3 c- b6 s3 M6 e
5、较重视网页Meta标记的描述, Q: F, o! s2 Q, J7 l3 V4 R
3 v2 m; B! [8 p7 t大多数时候Google显示搜索结果时会把网页的Description显示出来,并占有较重的篇幅。
$ n) c2 }( ?' a- b: C0 B/ m: G8 z
5 M5 _/ `- T8 x( [3 l
4 T9 H3 G/ ^3 c4 i" |6 g Google使用的技术:
) y# k( {% S8 W% r4 T4 ~" J" c5 N1 v& ?
PageRank 技术:PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。
; H, ]3 b( l: b: c6 Z, h( a( z( C3 ~% R3 E" I" d) M" x w2 G
超文本匹配分析:Google 的搜索引擎同时也分析网页内容。然而,Google 的技术并不采用单纯扫描基于网页的文本(网站发布商可以通过元标记控制这类文本)的方式,而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素。Google 同时还会分析相邻网页的内容,以确保返回与用户查询最相关的结果。 ' Q2 i) j, @5 Z3 r- a
|
|