搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们
/ u6 X0 _( @% P6 V/ a/ f, n8 w来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器
, r. `+ Q; m( Q" W! Z人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循0 Y2 V. c5 @7 @% O" H1 Y) y
robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器
- D' ?! n# e6 Q) L人身份是否合法。
# E- u! [5 \, r# N6 m3 o' ~! d" i 在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,
3 p, o4 d \: ^2 Z7 F {则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己, w+ V! M, Y3 D& h) p t2 _
的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将
' G. q# B1 O0 l他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。 ; ]% H$ T, ^( F* n/ ?+ W0 o
目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过
$ _' A& S+ P* s2 |: RDNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该' M: h0 V7 b6 V# n$ U, Z
主机名与IP地址匹配。
* E4 Q( G+ O3 p3 x) I5 P2 x 首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名& h+ M: W U/ f0 m0 v
称。主流搜索引擎的主机名称通常情况下应是这样的: ; U8 S" [% ~- I3 t2 Z0 t
Google:主机名称应包含于googlebot.com域名中,如:+ e2 S- {8 M! i5 d
crawl-66-249-66-1.googlebot.com;
7 e- Z/ q+ d; P$ s6 m* z; y MSN:主机名称应包含于search.live.com域名中,如:
6 k' F2 D, Q) X$ M3 Llivebot-207-46-98-149.search.live.com; 4 Q4 G7 U7 [/ r1 `" ]+ T; X
Yahoo:主机名称应包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。 2 E! J# C: T; z I: `* Y1 o
最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主$ q$ n: ^, Q( D5 s
机名与IP地址匹配。由此证明该机器人是合法的。
2 q$ ?/ _$ e9 M; z! R/ R现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上
2 D5 {" W9 Z; x( J% b的设置来阻止这个非法机器人。' u5 {6 O4 g0 t5 p/ Z* n
超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网; P( m9 \; N: H( a" |& t, K
页,其价值就越高,就越应该在结果排序中排到前面。 % h6 g9 _. n# C: I
超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合理性,因6 Q8 l8 j: Y5 z6 K5 t4 j
为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可
" Z" v+ S4 r! U以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。 $ [% ?* [& Z9 i. V! {
搜索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页上的文字。它收集了
3 Y. G& p: h" v( [* t/ M互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引5 t+ o1 N* T S3 C9 U! x7 P
数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词
( w# e7 ?5 y4 i, t; k的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索
4 Y% b( B' G: ?% z' b关键词的相关度高低,依次排列。
$ ]* f+ n/ L' u9 f C, P5 [' U f 搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站5 k5 v- p0 a; e. s
点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之
% B, `- S) ~/ w( _& L# s间的关联程度以及一个站点在整个网络上的关联程度来确定的。曾几何时我告诉自己:旋木你是来自天津seo世界的小可爱,可惜了,旋木感冒了,我要好好学习天津seo,做一名天津seo的三好生我爱天津卫:http://www.xuanmuseo.com/- D- l/ V( n7 o7 _
- D T6 b8 J5 _& A |