找回密码
 加入怎通
查看: 918|回复: 2

[SEM行业] 有计划地运行你自己的爬虫并对结果进行审核!

[复制链接]
星神子 发表于 2012-05-14 15:16:54 | 显示全部楼层 |阅读模式
9条**电子商务网站SEO技巧:
2 P' Y2 |) Z8 z* r  m  T/ R  1)建立一个推荐引擎(recommendationengine)
9 z3 t/ e3 V" q" ?  网上电子商务的龙头老大向来是amazon.com(在中国可能是淘宝),在用户浏览和购买的过程中网页显示了很多具有原创性的推荐信息。推荐引擎的作用可以是非常强大的。如果你还没有在网站上实施这样的推荐引擎,建议把这项工作列入到2012年的计划中去。" O: P8 i4 I1 R8 [; }$ c. @' W4 F
  对SEO来说,类似这样的功能,有几样关键的事情需要记住,尤其是在网站上通过怎样的代码来实现这项功能。如果是javascript,那么搜索引擎的爬虫抓取时会产生困难。googlebot虽然能抓取和索引javascript链接,但并不保证在处理这些链接时和文本链接一样。Bing的爬虫机器人(就我知道,到目前为止还是msnbot)和Yahoo!的Slurp爬虫机器人现在还不能处理javascript链接,我们实施时还得考虑到这两个主要的搜索引擎。% X6 e5 Y/ y2 D) ?3 k$ k
  你还得确认推荐引擎中使用的是正确的产品网址,并且最好别让这个推荐引擎再产生另外的带“变量”的网址。
8 C0 y2 K( R% ~0 R  根据你的商务需求,针对推荐引擎,你可能想自己开发或寻找第三方的解决方案。不管什么方法,这都是可能需要花费很多资源的大项目-不过这是值得的。为什么?看看下面的数据(一个我们正在跟进的公司项目最近发布了他们的推荐引擎,下面是发布后性能表现提高的数据):
7 J4 W6 b1 q/ c) F% [  每次访问浏览的页面数(PPV):+20.1%; x* C! z" ^9 y5 D4 R9 A. p
  网站停留时间:+2.8%
+ [* r0 X4 A7 b$ F0 W9 ^  跳出率(bouncerate):-5.%
, d# L: {5 u0 s# V0 _  转化率:+4.8%
. p, [( [  e& O5 U+ t4 ~  推荐引擎后的结果非常理想!这个客户是个大品牌的客户,并且已经有健全的销售流程,所以如果你实施了推荐系统,结果也可能因为企业规模和现有条件的原因会和上面不尽相同。' F, @" u0 i# Z. o
  2)增加相关链接: r5 X# q# v& k# n
  针对大量的页面,相关链接对SEO非常重要。在企业级规模的电子商务网站,SEO如何有效的利用现有大量的网页,并且把网页数量的规模作为一种优势,是很重要的。而相关链接能够实现这种优势,但实现和管理起来可能会有一定难度。
6 r  e  t- {, V5 b0 h! G* ^- X- V6 G  相关链接做得最好的是shopping.com,它们的这种优势很多年后才被后来者赶上。" t) h- W1 F8 q4 H7 v5 r( R$ e& g; ?# }" Z
  通过相关链接,实现的是三个目标:
( J1 ?/ q* j& F, `% \  r5 @  ) Q# g( g, K* x% c3 m8 x
  1.使网站扁平化,也因此可以提供给爬虫机器人有更多的进入点来抓取和索引网站的网址。就像网站给爬虫机器人打开了更多可以通过爬行的大门。
5 p) q7 W* G* {5 r8 l  ?/ |$ `! K  5 h& g. i8 Z# Z3 e$ D# O5 V
  2.关联和分类电子商务网站的产品,可以让爬虫机器人更好的理解相关和类似的产品,并且可以进一步地进行分组。就像给每扇门上贴好了标签,通过相关产品给爬虫一个指引。
# X( ?2 b& U) r) J. b  
& x7 L' R" y8 \: L: |# P4 f  3.给用户提供相关产品的分类和链接,可以帮助用户更好的浏览和找到需要的产品。
9 s; w% ?3 E! z; Q0 N7 w  
" r: N6 ?8 E% o" h; W/ ]5 N  如果很好地运用了相关链接,可以给网站提供巨大的优势,除了在SEO层面外,还给用户提供了极大的方便,用户都会喜欢的!相关链接可以和推荐引擎分别或一起使用,我们极力推荐电子商务网站使用-尤其是大型的电子商务网站。
. o- P. ^5 W3 z2 \, m! {$ W& G  6 |9 f2 i, Z( P) d( R* S
  3、找出进入页和跳出率间的关系' P$ x) L) s0 {7 r
  
4 j5 y. a* _5 D9 Y" Y4 {# `$ C  这是一个SEO中进行分析时很不错的技巧,BriamKalma给我指出了方向:生成搜索流量报告,将查询的关键字和进入页进行关联。这样你就可以分析某个查询关键字、访问页面和跳出率间的关系,并且找到需要提高的地方。8 z: {0 S4 }! e
  
7 q  K9 _' K8 g# ^" T  这个想法其实是要回答这样一个问题:哪些用户搜索的关键字把用户带到了错误的页面?知道了答案,你就可以根据这种关联性对网页进行优化,或者找出是否点击转化方面出了问题。1 Z) [/ x  E$ g0 \0 f1 z
  
1 p4 a$ F0 v- k5 x6 m8 g6 ?( D& K  这对辛苦工作的SEO来说绝对是个金矿!不过可能这项工作不可能一夜就完成。在你创建了类似的报告和数据(说的总是比做的容易),你还要分析这些数据,并且剔除大量无关的数据,最后才能产生效果。
! Q- }* W3 O' `) e1 ~9 |( s  
7 a) k* _) ~4 N) m( G" |  分析万岁!
% e; q2 g5 u( q3 f- i! V- j  
/ @- a7 ~: K3 Q: e; U5 b" {  4、确保网站访问速度
: a6 U7 t4 t# ]  c4 b8 J  . Q  H( W8 K- q0 X! O
  每天处理上千万(甚至上亿)的页面浏览对一个大型企业的电子商务网站来说非常普通。电子商务网站能吸引大量的访问量,并且需要高级的内容传送网络(contentdeliverynetwork,CDN)。保证上面这些的同时,还要记住网页文件尺寸大小能够保证网页能很快地被下载并显示在用户面前!
" ?0 u* D* W! r; k. p  7 o2 r3 E! U) H5 C; c9 ]
  虽然Google没有特地把网页的装载时间作为一个影响排名的因素,但并不意味着不影响SEO效果或者说不重要。网页的转载时间至少在以下几个方面会影响SEO效果:4 E: u0 H" }% w
  
! s' q% f8 F% u; a% H/ S  搜索引擎抓取的效率。在搜索引擎的爬虫机器人抓取网站页面时,通常使用的是典型的GET/RESPONSE请求,所以装载网页时不能有很高的延迟和任何5XX服务器错误。装载越慢的网站可能越会影响搜索引擎爬虫的页面抓取,并且进一步可能会影响搜索引擎索引该网站,甚至影响到网站的排名3 D7 c* c3 s- g. |! J# A
  8 B# G' @. E5 X
  用户的反应和体验。装载慢的网页就像“页面不存在”一样。在网上,我们都想尽快看到我们想要的内容,如果我们当时不能访问某个网页,我们可能会点击“返回”按钮。Google肯定,Bing可能也是,会把用户的满意度作为最主要考虑的事情。一个用户搜索后,点击搜索结果中的某个链接,然后迅速的返回搜索结果页并点击另外一个搜索结果链接,这种行为会给搜索引擎关于某个页面的某种信号,并被记录下来。试想想如果有千百万次这样的行为,我们会得出那个链接在搜索结果页中的重要性被降低,或者如果是像5xx样的服务器端错误,那么这个链接可能会在搜索结果页中被剔除。
8 l+ U. b6 h1 u# q5 S/ G  
6 u  k  a+ Q3 T. ]8 P  5、找出和消灭重复的产品网址
+ N& L1 V$ [1 F- s. G  
# C/ C" C1 w/ f4 J5 H% }  电子商务网站如果有不同版本的产品网页会很不好。通常我们可以通过site:和inurl:等搜索条件来发现重复的网页。请格外注意产品级别的网址,因为这个级别的网页通常都会有重复的内容。同时也是容易给搜索引擎排名造成负面影响的部分。每种产品都应该有一个唯一的和具有权威性的网址。; Z8 o& B4 s! R7 y- d# M4 j- v
  
7 v' v5 j5 i1 D  重复的产品网页可能(最少)造成以下麻烦:
1 ?( ^( N) f/ e( ]$ p. h5 P# L  + k# d+ P9 D' P; g( X
  页面权重在搜索引擎的指数中被分散。有几十个甚至几百个重复的产品网页的网站并不少见;当Google只能抓取和索引有限网页的情况下,这种情况尤其需要认真对待和解决。2 Y; g  Q8 E5 F& z9 `0 C/ ^! U
  
' t9 t6 ]5 w. v2 [5 Y+ k- G9 ~  PageRank被瓜分。重复的网页能分别获得外链,所以,消灭重复产品网页能得到最多的外部链接。
1 c) W( b7 L4 A9 i8 k  
+ B0 V- l* L- G5 T: D- \  想发现重复产品网页的网址,可以试试下面的简捷方法:' x, D1 q* }1 d0 V/ z# i
  
2 d/ W& j7 ?% G7 A! Y/ U9 i  site:mydomain.cominurl:productid! j4 j9 a1 q4 c3 h
  
9 f1 z+ O3 O! F- r  site:mydomain.comintitle:“myproductname”' r& t* r3 n0 t
  ; j4 q) {" n( g& J: F
  之后你应该点击“显示全部的搜索结果”链接来查看所有搜索结果,以便发现重复的产品网址。% w% H) }+ d, f8 C- V
  1 }9 S$ t4 y# H8 C  H+ ]
  在发现重复产品内容后,你有几个选择(按SEO的效果):; [1 G+ M6 [( y' Y+ _( a+ h3 P: ]
  4 H7 h1 N/ l+ n+ J$ y1 B
  最好和最强的:重新架构你的网址,让他们不再产生重复内容。这可能意味着完全重建URL格式,在99%的情况下我们不推荐这样做。但是,因为重复网址问题的重要性,你可以把消灭重复产品网页作为一个长期的目标,即使短期内你不得不用其他方法来弥补这个问题。
: Z2 E; d9 _2 j* c2 `0 h& _0 [  
2 T9 j9 o9 a' X, c- S- O4 r+ W6 @+ Y  第二好和中等强度的:使用301重定向重复的内容到一个权威版本的网址。这一直是一个好的做法,不过可能这需要很多人力物力去做,而且对于那些季节性、时尚类或正在促销的产品来说,可能并不可行。并且,重定向会造成网页打开时间上的延迟(这点经常被SEO们忽视)。- D7 A  A* k  a0 b0 l# l" f7 M4 p
  
- h/ q) `2 ^; D9 t  第三好和低强度的:使用链接的canonical元标签(metatag)来关联重复内容到单一的、权威的一个版本。下一步,使用Google和Yahoo!网站管理员中心的参数移除工具去除那些不需要的参数。这虽然不是最想要的方法,因为其实这个方法并没有解决底层的实际问题,就像给伤口贴上创可贴一样。而且,这总比啥都没有强,在资源运用上也比上面两种方法要少得多。0 X+ [6 V! Q7 I2 h
  
  P# J- s& ~. V. \  m, q9 y' v  6、有计划地运行你自己的爬虫并对结果进行审核
2 @. P2 n1 D" s9 r& A' A0 i  2 N" o5 P$ }+ N4 ?7 _
  如果你是一个in-houseSEO,设置一个爬虫,有规律的但宽松地进行抓取。Xenu是个不错的选项,但是它不能运用于大型的网站。WeblinkValidator在这个级别更好些。不过,使用外面定制的爬虫也不错。这个想法和好处是能持续的掌控网站的变化和新内容,并可以监控是否有重大的问题发生(比如从缺货的产品产生25,000条302重定向)2 R! X+ D' j" x: G7 c4 b
  4 o( c" r# K( K$ Z
  Google的网站管理员工具非常不错(同时,也推荐使用Bing和Yahoo!的网站管理员工具,它们也不错)。现在,Google的网站管理员工具已经模仿了大部分爬虫机器人的功能,不过有时对网站进行分析和调查,可能还需要其他工具的协助。
( e2 f9 r4 y# I% D; v" c  6 w5 z" y$ ?4 C9 t3 u( \. i0 M# i
  不管你选用什么,坚持就好!
- V* N2 j9 a- k3 G, D3 G9 O  
* |3 d0 k( m8 U. l5 P) {  7、夸耀自己的成功案例! W# R  G3 b0 w
  1 \& d7 |3 C. y* s) T: ^! q/ E  P  c4 S
  这可能有点奇怪,不过你必须得知道:你要夸耀自己!对了,如果你不告诉别人你成功的做了哪些项目,难道你期望别人主动来发掘吗?你不能在那儿安静的工作然后期望别人能注意到你有多牛。你必须得站起来说:“嘿!看看这,我们上Digg首页了!我们有了新的排名!我们搞外链搞疯了!”,类似这样的,反正你能夸耀一番的都行。
7 _+ B: D; D* g2 l9 }8 S4 T7 x  6 p, P! x7 q: o) G* \4 n
  毋庸置疑你的工作不仅要求你提供报告和评析,而且你还应该记得除了报告之外的其它所作所为,也应该一并做好记录。
4 r0 |+ A+ y6 k  ; K% K9 [+ ^$ N/ {. Z' v2 p
  记得在经理或同事面前谈你最近做了些什么,比如外链建设、又获得了几个排名、流量大增甚至刚刚做完的项目。
% v! W( n2 w. n+ w  
: y; W5 ~7 O/ ^/ o1 N  让别人知道你的成功和功绩。
0 Z7 ~5 f+ ~. ^0 `. @* R- t1 W0 f- ^  
8 ~9 ]7 U% k0 p  8、充分运用着陆页(landingpage)* J& L1 P; |" ~! J" `6 K5 q
    S' U+ h2 R0 K0 h# v
  着陆页面就像一个小小的网址中心集散地,把网站的整个分类目录(甚至子目录)连接起来。对于大型的电子商务网站来说,拥有定制和高质量的着陆页可以让web开发团队:
: f4 i" \% K/ P1 U" K+ T3 k) v  8 F( S* p2 S% S8 O
  给用户很棒的浏览体验' V% W1 Z7 j0 Y% l9 i
  
* U* }5 M8 ?/ I  控制网页上链接的数量和类型/ o5 w+ D6 ?: Q0 G2 c8 W! j
  
/ z# p+ p! z$ r' m  控制网站从产品目录到产品网页的“流程(flow)”
% S. V. i( Q) A8 x7 V  w' U  ; }( ]5 p- _% E5 Q* }% B: i
  在单个页面上聚合例如定制拷贝、链接、评价、产品图片、促销和导航等元素
7 e. _" I% g* Q, Y  好的着陆页最棒的地方就是能产生非常好的转化率和排名!0 G3 L/ T3 A* x  R
  9、保持创造性
# Z2 K2 R0 t: }& m1 v$ Z  人们总是把最好的留到最后。
% o- P4 M7 u/ G& e  **的电子商务网站一般有件事都做得非常好:就是它们都很会迎合他们的客户。创新能创造价值。SEO有时也需要好的创意,因为SEO的实践只能带你到某个地步,而好的创意能让你大步的跨越。
# |$ T8 ]- q: s  ^2 h' m, C; S  9 P4 n! q9 [9 n5 W/ [  c" ^
  持续地关注新的项目。不要停留在保持原有成果上。保持开放的心态。远离那些“最新最炫”的SEO技巧和其他琐碎的东西。创造性的点子可以吸引眼球,带来流量,不必在意是否对SEO有好处。并且请牢记,“搜索引擎也是追随用户的”。
8 |  e0 \) C, k- k4 H  我想所有一切又回到了1995年的一个事实:内容为王。只是把内容用新颖和有趣的方法重新包装起来是现在和当时最大的区别。
2 w. z+ \! M9 G7 W  I有问题,找专家,来问问堂!问问堂,中国最大的在线咨询平台,各行各业权威专家24小时视频语音在线咨询答疑,想来就来,想问就问。
# }2 d/ K4 o. D$ `" U此文章来自http://www.zybuxiugang.com/    转载请标明出处0 C4 _/ k% s) c! Y9 Y, w& D" _4 b
此文章来自http://www.wxszdsbxg.com/      转载请标明出处         
9 _( n! _$ [% i此文章来自http://www.jingzhaguan.com/     转载请标明出处
3 L8 {) w! m  `- z此文章来自http://www.wxtbgbxg.com/       转载请标明出处 9 g' e: i, K, J0 w6 M" t& b8 P
回复

使用道具 举报

繁华似锦 发表于 2026-01-22 19:51:42 | 显示全部楼层
刚好遇到类似问题,看完这个帖子心里有底了
回复 支持 反对

使用道具 举报

wawjpa 发表于 2026-02-20 04:35:46 | 显示全部楼层
楼主太厉害了,整理得这么详细,必须支持
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-14 01:16 , Processed in 0.197546 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表