经常有人让我帮忙简单说说SEO相关的数据分析怎么做,甚至期望能几小时速成。但这方面涵盖的太多,不可能三言两语就说尽,也不知可从哪里简单概括。
* ?6 v/ ~4 I% b) Y9 C8 \) M; I7 U. y3 @! p& n* c+ r
SEO是一个非常不成熟的行业,能参考的资料极有限,大多数东西都要通过数据来摸索,而摸索的过程中,往往能揭露凭过往的直觉没有意识到的真相。所以数据化有时对于SEO是非常残酷的,往往一份简单的数据就可以否定掉一群人数年的努力工作。
& }9 k; K- s8 d4 h4 @4 K5 b( m
5 i2 } E0 t6 P6 |$ a 就拿最常见的例子来说,SEO流量是怎么组成的?大多数人觉得那是靠热门关键词撑起来的,或者认为是大量的热门关键词撑起来的,于是认为热门词的排名上去流量肯定会涨,却不然。对于大多数稍大的网站,绝大多数SEO流量都是由百度指数都没法看到的极其长尾的词带来的。因此哪怕用再大的力气去做热门词的排名,它们贡献的流量依旧很有限。+ Z0 h% R( W K+ L
0 P6 O2 \( A% q- ]7 }0 l3 t
或许有人会认为这不可思议,因为从来没看到过这样的数据。但这数据是只有通过分析网站的原始日志才能得出的结论,而Google Analytics此类采样率极低的统计系统无法看到这样的数据。更不提哪怕会熟练用GA的SEO也甚少,因此SEO流量的真相几乎是从不被人看到的。
. A; F1 o6 H$ l) u2 U4 C/ N
& e3 s. Y: z- A! E+ X) ]0 m 所以,有时听人说“SEO已死”,而我经常说“SEO还没活过”,一点也不夸大。0 x7 y; P/ N/ S2 E$ j
3 ]# @! F5 L4 Y) u
如何开始学习数据分析
+ j- L! E$ A( Z9 b- d% L" c8 Q6 j( y' J$ D- ?9 M9 u1 u7 z7 ^
SEO的最终目的是给网站产生收益,因此核心指标有两个:转化、流量。, A9 E3 C% ~0 v4 k: |; e
1 } l" k& T( d9 o3 ]3 q- S/ c 比如流量再可以细分:流量 = 收录 * 排名 * 点击率 * 搜索量收录可以再细分:收录 = 抓取量 * 页面质量, g: N2 l& ]) w4 z9 x
; p6 h5 u$ n% I9 w( Q m6 D
而比如抓取量,它的瓶颈依情况,可能是抓取时间封顶、可能是抓取总量封顶、可能是页面总量封顶。各种情况都有不同的处理方式,需加入不同的数据指标。
4 P/ Y# `) c& U; \# R1 }+ j; {) |3 D2 ~
通过类似这样的分法,从最终数据指标(转化、流量)可以逐步细分出几十几百个数据指标,这些数据指标都是有用的,因为它们的数值变动以后,最终也会影响到转化或流量。
7 R. m& `+ b8 f3 `# C
& Q2 ]' H( b% m$ b1 e8 ~9 ]$ y; c b (有本热门的SEO书籍,花了很大的篇幅去写了对一个网站分析并操作的实例,但最后那个网站的SEO流量却很低,没见多大效果。因为尽管其中有大量的“分析”,却多是在看没意义的数据。)当一个主要数据指标产生波动的时候(最常见的是总流量变动),就需要通过细分数据来分析具体的原因,后面有两个举例提及大致思路与步骤。1 K0 I/ Y8 p5 V8 G
" P, k, ?+ ^' [- ^
之间涉及到的面则非常广——, h @8 J* Y" K! S' q3 `) M3 g
( ]% x4 X6 Q$ [# n3 V# Z: p2 y# I5 A2 b
首先要了解搜索引擎的基础原理,这才能知道在什么情况下什么数据指标是有关的;之后需要对多种技术的入门级知识,因为各类数据的获取方式都不同,有些需要采集、有些需从日志提取、有些从数据仓库导出、有些从API获取等等,需要学习的方向不尽相同;单单的数据只是数字,还需要分析数据才能让它产生价值。临时性的分析一般用到Excel,监控类的分析则需要自己做个能输出图表的报表系统。; S$ N; Y' C% Q; r1 k) P, y
& N1 ~, z8 M9 {) y' q
这些至少要花个半年功夫才能学会,但并不算难,没有什么可畏惧的。就如学习1+1时都会觉得9*9是难的,但学会后再往回看,那就没什么了。# F2 h+ i$ u4 l% N2 {
: t* }" y& S" _' W4 i 一个基础的假想案例分析+ P; v3 h3 H2 c) G
% d x( Y0 ^% P0 t+ Z- M
假设个较接近于实际应用的例子:' c3 P/ i' p0 \5 F0 w
% T- _1 a; X V" i
一个游戏类论坛,A板块为网盘游戏下载,很多页面上有到X网盘的导出链接;B板块为BT下载,页面上有一个站内的种子下载链接,无站外导出链接。
' n# F" ^( T& P+ w) h [$ W( O! U* }9 E7 b7 T& K
开始分析:
: Y7 T( C3 e6 b( w: \! ~/ f
* w, h* z1 N! k6 I9 R 统计页面的抓取数量与即时收录数量,并计算之后,发现A板块的页面质量明显低于B。(页面质量 = 收录数量 / 抓取数量)那么此时猜测,是否是A板块帖子页面上,X网盘的导出链接导致了它的页面质量低?- N8 z% u' d$ d) j. a" N4 E5 K
! W1 R# p5 O" n3 J- z2 y! ^$ h; g
为了验证猜测,再将A板块的帖子页面分为两组,其中aa组有X网盘的导出链接、bb组没有X网盘的导出链接。分别计算其页面质量。如果aa组帖子的页面质量明显低于bb组,那么可以得出初步结论:
$ f$ [% b4 E' M4 |, {9 d4 L3 n/ h8 s! U+ C" ~" J3 _- B; Z
“X网盘的导出链接,使得自身帖子页面质量降低,影响到收录量,并最终导致SEO流量受损。所以需将该类导出链接做特殊处理,比如由自己站内URL,301跳转到X网盘等。”3 N+ F5 V# G5 s* q+ {% F
1 u" ^( w, e" A9 F3 }9 {1 T4 W* T 当然这个结论未必是正确的。比如,aa组帖子具备的特征,除了具有X网盘的导出链接外,也可能具备的特征如转载帖子比较多(游戏资源贴许多会是转载),可能是后者真正导致了其页面质量的低下。
( ~" a$ m: `8 Z0 [, S; }0 Q
; ~7 B! R2 C3 R* I6 K6 G 尽管更严谨的数据分析(比如再将转载帖子与非转载帖子分组)更可能得出准确的结论,但这般严谨下去就没个头了,SEO毕竟不是火箭科学,在某步的数据获取很有难度时,借助经验来猜测下可能更划得来。% v. p; {: {+ F/ P8 @! Q5 M
+ B8 v {( O. d( X, x, h7 o 所以可以先实施项目,然后再监控整个A板块相对B板块的页面质量是否有拉近,从而以最终效果来证实之前的猜测正确与否。: R! \1 N/ [% \3 i
+ ?) c3 g' A4 x$ \: v9 X( R% W 尽管这个例子完全为假设,我并不确定实际情况中,帖子到网盘的导出链接是否会影响到页面质量。但类似的例子平日能遇到很多,且此类分析的时候所需的数据收集起来方便,因此这是日常SEO数据分析最容易碰到的一类情况。
O6 c6 L/ z; w4 k9 m- a% A
! D! P+ B* t( S* D 一个进阶的实际案例分析
! F' c7 b# Q1 b% ^# c2 M) K6 i9 _+ ~+ u2 o9 |9 X1 j( o. N
(数字与实际数值不等,但大致比例相同)
% j1 @" n" f& o, B+ d3 b; {' b& h% Y I5 H. n& v! B5 j N! B
内页的流量在某一时间段大幅度下降,需分析其下降原因。7 d# u5 n1 }7 Z& V' t
: S i4 d7 m- f' J* b
一个常用且管用的思路是,取25%的热词,看它们带来的流量、与另外75%词分别的变化。如果得出的数据是热词的流量下降多,即多半为热词的排名有下降;如果下降程度相当,则为整体的影响。
. q: ?6 ]: |; \# T" \
+ ^; j. ^) e& b 首先,计算得出25%的热门关键词,它们的流量下滑幅度为35%;而75%的非热词,它们的流量下滑幅度为30%。& s" M' `2 [3 `2 y! n
3 s, l9 O& l* \# W
但虽然数据差了5%,但差距还不是特别明显,需要进一步分析才能确定。$ Y. h/ y3 K* U4 C9 h) b7 X4 w
7 Y% m9 J' \7 ?6 h5 L, `
因为关键词往往是可以被进一步分词的,如“SEO文章”可进一步分为两个检索词——“SEO”、“文章”,而且检索词才是搜索引擎真正在处理的。所以进一步的分析就去分析25%的热门检索词流量的变化。
3 N: _' _# k+ m% `
% @. R- [7 @4 \, f/ R' g# f 最终得出的数据是,包含25%热门检索词的关键词流量下降了40%,不包含热门检索词的词流量仅下降10%。4 E- H4 Z- L/ {) N3 l3 K) p4 f9 l
9 f, Z/ V$ ]# A' o( g 那么结论就很清晰了,热门检索词相关的流量产生了变化。之后对比网站近期的项目上线列表,没有涉及到这部分的修改,所以这是百度的算法调整所导致的。
( ^8 t$ d& Y+ `6 t/ f2 m3 M7 W6 q/ ~) U9 y# y2 _9 ~
知道了流量的变动原因后,自然也就可以有一些相应的改进方案了。尽管方案能执行与否尚取决于网站对SEO的重视程度,但至少不用借口于:“百度总是喜欢K我们的站”之类。$ [. f3 `: v6 v$ ]2 ~ |* q% p% {+ s! I
|