搜查引擎做为网站流量的重要起源,网站的收录量慷慨是大局部网站运营人员关怀的问题。( K4 i( u7 i* D5 w+ D
& r) c6 V# Z) A$ }& H
! n" C5 v+ C+ r8 E O0 H4 L先确定一些大约点,一个网页被收录与否,有两个因素:
% {; s4 w8 K- e- G/ K- [
3 u& ~# R2 }2 Z& i% [ s C" j* E+ n$ D. a: f h& {9 w
是否被爬虫爬过0 ]/ v5 z6 ?. P
9 d; s' y: x# D1 Z$ Q$ b" B- B. N4 z) E: V5 i7 C Y& m r( E
版面功德是否过关/ x( u0 d9 O& a" R6 S2 l; b8 [; Z# v
8 C$ y6 k3 |; _2 m: k9 e; g9 {2 x) X
" ~( I4 p" V4 N上一篇文章曾经提过了收录率这么一个指标,许多网站都懒得去做这个指标,“我看看site的数据不就行了!”,事实上未曾这个指标,许多工作就无从下手。从数据中找出问题,利用数据点拨处理计划,分析数据检讨工作收获。 最近看了《深入浅出数据分析》这个本,感受不错,把数据分析的措施讲得很生动,提倡有乐趣的从事数据分析的同学能够买本看看。 任何数据分析由,目标->分析->估价->决策,四个环节构成。
0 P) v8 z; ^+ P- M! ]: f
! Q- Y1 G9 z' T# }9 J% k; [# f2 i4 s$ H3 @* C+ D K7 W8 T. b0 M X
目标:我们想看一下网站的收录情形如何,在SEO方面是否还有长进的时机。
; @% C' ], L3 o* F9 f) [, o8 V- V, i' y6 R
9 d2 d1 y6 ^7 `* o" u; o I5 c
分析:收录情形什么算好什么算坏,是不是用一些指标来权衡?网站的收录情形是不是过度笼统,是不是该当细分下各个版面的收录情形? G0 g* A6 u* N" F
/ C" N, Y6 y! @8 b) |
7 ?( M; @8 @5 P: F: T3 H
估价:于是我们必需下面一些数据4 r6 ^. a. W7 d( c+ V
: c4 V; v$ t/ C& u+ b2 c4 C
' r- }1 ?1 l. {( U$ o! x: C
> 网站的版面层级联系( t# k- {) }/ V
7 f! l u2 _: t5 ?8 x% m) M6 `0 J- G+ r: G. U& R
; I. U; F; Z8 @: I- W0 s; s a* S$ D4 l# |( K) { N) E' e; t- {
> 各个层级版面带来的SEO流量9 p. r/ V; L. ~( p
5 y- L2 X/ ]9 ^, L2 e/ y
7 l) Z D+ [- ~. q( |1 i- V1 u> 各个层级版面的收录情形如何; r! V X( `: K( s8 R& Z
" t0 G6 ~& e% D3 `2 P4 e7 |- ?8 F3 r% d' W4 X% n( p, X# P6 b' L s% n
- b% }9 W: ?5 t j. s6 c1 H. V- i: C8 a0 {$ S3 [; j1 a* m
SEO流量的占比能够从Google Analytics中过滤出来。
! Z5 r1 x8 j$ h5 i/ E' B+ G. X* \2 q3 t: ^
0 \: B2 K0 }4 A( H2 g2 N3 I版面数量能够从数据库获得,可能穿越度车头or自制小脚本抓取普查。
. z- E7 y; W6 W- G) d+ z; n: P
7 C; R. o8 \/ T8 ^; |
& b0 I& Z2 e' D3 t1 ]. H收录率能够将获得的版面穿越工具举行搜查,火车头也能够。- @: P1 }) o1 a
6 a; z) g' I$ f( r" G$ z" I) |' t
: k, y- y! h- V; `
问题立马凸显!. {/ B1 g, d2 g
$ ]$ B, t: o7 }5 d! h |) H7 A' O6 D9 m; b1 W' Q: `# l6 `1 @+ \
1+2级目录页带来了许多的流量,收录率不是很好,优化收录的流量晋级冲缺口在此!5 n8 j- W- X Z$ r9 S% ?
& h( ?5 Y& c' a+ e5 ~
) \3 G; J1 K" Q8 |2 @9 V$ V
( D: F: v" Q( W) _& q& ?; ^
) n# v% x( U0 b3 p1 Y; m: x' i' }! o产品版面数量许多,收录也不是很志愿,然而带来的流量有限,除非收录问题,还有版面内容的问题,本文中先不管它了。
. n: a% W7 X3 A$ m7 _
2 X# \" e' Q/ W5 o/ B7 C; ^9 x; ?- |% ~+ }0 P; y: }
决策:我们的结论是即刻展开行动对目录版面举行收录的优化。( @# R1 o+ Q: E- `0 K1 z4 M
, h; t0 B1 ? n0 I, @; B. l& B, R; Y; H3 {% L
看到这边,好像刚开始的目标:“穿越优化收录晋级流量”4 q! V$ @# Z8 K/ E
2 S$ I5 j0 W4 l$ I, o
: {7 U5 C* l% V$ g- X1 e
演变成了新的目标:“如何长进目录版面的收录量”4 b: ]4 Y5 G6 N7 e) U+ @
" r5 E& Y! a' ^- |5 c3 P/ u
4 T7 C# M& V2 ?, T: j( h7 g( h
这边能不能再次穿越数据分析的措施举行SEO呢?! \5 _8 O; ?9 M' h- N1 g
0 T; M, W* R) N/ z( @* q5 H. i# ^; O# m: ?
答案是确定的!! J) H5 c& \& t- c
% \. k& {2 o/ a- S8 |3 _
7 ^1 m0 w) q5 x) V; q我们再来重新走一遍 目标->分析->估价->决策 的过程, d5 R7 A5 d3 P8 ]# e* P" x; Z( o
" ~& k. V4 K: Q2 c- X/ _; H: l# Y
, D. ]4 r6 B+ l9 S5 M- l( A! b目标:长进目录版面的收录量
" R+ \/ _ q/ G5 ^
% Q; g$ m8 H/ E5 F5 `6 B1 g4 ~
. }& m" t \/ X! `! X% t分析:穿越本文开始的有关收录的两个因素,我们必需察看一下,网页是否被爬虫爬行过,网页的功德是不是过关。
+ f( G& N o; ? K" I
, f9 [ ^4 ~6 f! Y! O6 j4 U$ |" s0 G! W
1. 关于爬虫的情形,我们必需分析日志,能力确定。于是我们从日志中拆分一系列数据看看版面是否真的被爬行过。% _& L6 d# @+ u( e' l: p
0 t; ^. V2 ]; D! b, f- h. r- T) C& Z6 f% {* v" {; n0 e4 V5 t) @$ _ E1 z; W
2. 由于版面功德好像是一个很难权衡的值,于是我们能够用雷同模板下的:; N8 N- d% k& J( N/ R
1 l. {+ ~- m4 v1 ?% H) D
. z& e- O/ n8 q% y7 V
已被爬行的版面数量/已被爬行并且被收录版面数量. A/ q' O+ Y8 Y
' I3 h: ?: S. U6 W4 w: ?; l% l" F9 s
来估价该模板版面功德对收录的波及大小。万一被爬的版面都被收录了,那起码解释这套版面的内容搜查引擎还算确认。(切实情形远比这个混杂,而且收录后也有可能因为功德问题被剔除,但总比什么比照都未曾要好,对吧!)
$ n" D+ T" T# E2 {: b6 l
+ S' P" _ P) c! d3 h
% g6 p, Y" X5 k; ~" b' K; Y估价:(敏感消息用编号轮换,均为恳挚数据)
* h1 b5 a. k g. f" w _! d
8 {# ^, _( R8 C& D4 [
, F% S+ k# L4 E3 Q先看一下爬虫日志的情形,穿越Shell脚本,我们能够分析出。
+ Z. }" Z S8 @3 L
, Q3 K( O! R! i9 Y" E0 J$ d+ o% c3 m$ u
目录总计被爬行的次数为13000次左右
$ Q! h1 F- v* M; |8 h
: W8 f1 j1 ~! ?2 J9 \, p( H! ?
8 r( f* H: B3 |/ _& y不重复的目录爬行次数为5500次左右/ m% \6 B- k- Q5 w
2 |/ O; s# |# Y( V
9 d( [2 l7 q- k, y7 F, V频道A下的目录几乎被100%抓取过起码1次,频道B的目录抓取也不错,有70%被起码抓过顺次。0 A# E* W1 ]4 |! t
' v( C/ r f' I/ H& b' l
. i# H, d: r: B! _: f4 y2 E其他频道下的目录被抓取的遮蔽率不到30%
4 m. R6 L+ Q! v0 U p
) H& g$ O: {* m
; R, ^: Z% F/ n3 \: [5 |$ r; _; [5 }3 q) `# g L7 R$ o5 H
& c t# M6 Y3 R# \+ l6 M% h+ D+ ^$ x不要感受这个收获很神奇,其实许多网站都会见对这么的低劣问题,凡是你把数据不时的细分,细分,再细分,总会考察出一些端倪标。
, b |( u; V9 Q7 i: b3 z! g
2 ^5 J m2 k8 q- z
3 V& X6 \5 y' _ Z* c) o关于日志分析,不要迷可信何的日志分析软件,那都是给懒人用的,自制脚本+Excel才是王道,能够拆分揭示出任何你想要的数据,当然,甚至能够连Excel都不要。
' {$ \4 K+ k' c% C+ Z& c8 B5 [
' O2 K7 X: J: Z+ u# H7 B# t C1 i; T/ a1 R- E
然后,我们普查了一下被抓得最频繁的频道A和频道B,目录页的收录率
9 w+ {! ?$ k# {3 _8 W; B6 K- [/ l/ u" G+ d% t2 c4 g9 T7 z9 ~0 `
~- a) ^5 `* @6 S" X7 S
# b" P) P! d6 Y8 c) m
8 e1 w7 }) u; a* e4 t; E
频道A和B是很让人塌心的,解释版面功德没问题,然而余下的收录情形就让人比拟担心了。& g+ b2 j4 v3 ], V1 p1 }: y
6 s% _4 r; b* j% g
! i0 R# s; f0 z/ E& ?
决策:穿越上面的数据估价,我们曾经获得了如下结论。
+ D1 J3 m& t( `; i6 v: A0 B1 @) B
2 w6 D6 A$ M8 \4 [9 r8 t# m6 h
0 x3 |# w+ o( L% P% X p版面功德并不是波及收录的起因。
4 Z; V% B6 `6 V" I0 D
# d& ]3 @2 M4 K5 Z4 {* y) G) Y; D( }
频道A,B的抓取量失常的高,穿越察看打听,本来是首页上的目录页,揭示的全是频道A下的目录页,首页又具有全站最高的权重。频道B具有比其他频道壮大的外链资源,权重也极其高。0 q, N P$ N& ]+ u8 r7 [
% P/ M" ~# T6 |' l
6 v! W1 P. Y/ x8 O" E) J7 e1 [2 Z$ N6 e除非A, B频道,其他频道的抓取情形不容乐观,抓取入口太少,太深,进而波及了收录情形。0 R1 ^* V+ F, `1 L* ~
0 Z- d: y9 v1 I6 _2 H
" o0 `- u# F) q2 A很显明,目前频道A从站内的角度来说太壮大了,定然举行一些“劫富济贫”的行动来减退频道A的抓取量,迁移到其他频道中去。同时,必需给爬虫供给更多的入口抓取频道页。
3 z* A# k! h: d3 ^
5 N* O9 b }/ w
- f0 J* Q! q! w目前问题变得打听起来,我们开始把工作分成两局部:1.供给更多的入口 2.将资源平分给各频道而不是凑近在半点几个频道上。4 f! w- _" B6 |* O: W7 l. n+ J
2 y: S9 V0 C! G& f: }
" U$ s w5 [2 L% { |供给入口工作: F- `" }* ?- S- Q: U/ ^
- e6 v* ^9 I4 R1 u: X# ?# `
l) a2 g2 Y9 V$ x1 R9 P5 B2 L1.把目录页的URL制构成sitemap。提交给搜查引擎,并且将其设置为比拟高的抓取权重。
7 q$ Y, |2 P9 T; V* l8 C' @5 y3 ]; x' ?5 {
- C' f5 u7 R+ V
2.健全面包屑导航,将面包屑导航划分得更加精细,以供给更多入口! Z, s0 A$ J% |7 Y: r, |
. M1 }* q: I9 n2 F) h2 L3 P5 M. R* d$ \4 |$ D# Z* F
3.在其他产品中评比目录页) T9 z6 |9 q, v/ x5 l
. P _) a2 t- U7 P Z. s& x
4 }0 c C8 C4 b资源平分工作:(一些观念:任意版面都有可能成为爬虫入口,百度爬虫抓取深度有限,版面相对入口越浅,被抓取的概率越高。)
/ k1 K$ O5 q; F( m4 A; d
2 {+ ^/ j, L9 _7 u' C H
5 v- l$ L, e) p5 k" u9 S; {- {1.本来首页指向的都是频道A的目录页+产品页,将其全副nofollow,确保从首页进去的爬虫,全副抓取到频道页,穿越频道页再进去目录页(其实这个不算太重要)6 y$ j. ^* E7 m2 M% n
- G9 e, @( ^. `4 z
0 `( A; F; y) s1 h% F1 G
2.本来频道页指向切身的产品页,将其全副nofollow(确保从频道页入口的爬虫,最大程度的抓取目录页)1 v c E+ ^5 I
8 s2 I9 t. P) n1 _
1 [3 c: T6 |' u/ F B
3.从目录页归来到首页的链接,将其全副nofollow。1 \5 p- y6 V; ? v1 z x
$ H8 s* f" @; n
a8 i, f8 E- F) f4.收缩一些版面上无关链接。(什么情形下这么做都是极其管用的。)( k8 D4 p. y0 }) i9 N" b# M3 d( B4 ?. L
$ G/ r# ?5 d/ q: {
6 o5 @( z2 C) _" A% g目前能够开始入手了。。
' }) A3 B- D t- I9 i" p4 j4 q+ }7 l2 g) D: ~
0 y% i- m" H3 R5 p; f$ z收获
" u& f2 g% \: B: J+ _' v, O# ^* |$ L% d. I8 z+ O
. D7 ?: t1 [6 e3 e8 b1 B' }$ V这么做究竟有什么收获呢,我们来看看修正后1个月后的数据。
& |* ?. v7 g+ K ?. G5 v
" g# v3 e& p. ]! Z3 C/ t& @9 F
' v; `. V1 v2 f9 W4 u4 ` X5 B" _
: x0 g' R9 }" r5 X5 g" X6 a- Y! ?" P
. L$ u) T N6 ]1 H+ o" N目录页的收录率长进了100%!1 ?8 W' ]7 Q# @% P( a' E# ?
) d/ M# i( a1 U9 Z/ D5 @4 b# e' O6 d% D" Q1 \1 Y& U9 ?
产品页的收录率也有定然程度的长进,这是归功于目录页对于产品的良好揭示。1 r3 Y; ?3 [- i+ |$ v
; o. s, K9 g5 S9 Z( ? Z e) A- Z: ?1 }* N, A8 y0 {9 U
目录页的SEO出现:
0 q7 J7 k9 r4 H
. s+ {3 U# K- C3 v$ _, b, [) R. N
SEO流量占比递升了15%+ x3 j5 |; B. w0 d- f5 M
: R, w& f! o: M/ I+ n2 ~* [
8 [) m0 g+ `. V% g! p( J增长10%的到访关键词数量(新版面的收录)
J# H u/ S5 K7 `7 B2 [ M, _" V4 {6 L% y: b* f. m
h4 z- M3 Y) U2 z3 Z" w
SEO流量增长了50%以上- t# E! f5 L) Y d
|