
& o' y9 O( s7 x5 `0 K该站上线是2016年11月中旬,到文章截稿时间大约一周左右,从整体站点页面的收录速度以及排名中可以看得出,蜘蛛的抓取频率是非常快的。在给大家揭秘内页实战快速收录并且做到页面参与排名的方法以前,我必须的告诉大家两个点。
/ C5 P9 W/ c: n! |第一、该站点所有文章均为抄袭,任意一篇文章的内容百度上都出现了多次,打破了传统原创思维理念。
, V# q1 ]9 Z X1 i y' D1 e/ o第二、这仅仅是一个刚上线的新站,并且没有使用任何所谓的蜘蛛池进行吸引蜘蛛。9 D! m4 P7 o+ k) [6 C
那么就会有很多朋友会问,新站是如何做到快速收录并且可以建立部分页面参与排名的,这个话题是本文的研究核心。首先我不得不说一句,如果大家也遇到了收录问题,那么至少有一点你没有做好,那就是你一直在关于所谓的外链、内链、布局、原创内容。忘记了一个核心的点,就是搜索引擎排名原理。1 t; `9 n7 |& F
首先要想做好页面收录并且参与排名,我们要先思考下搜索引擎工作原理,当然,别小看这种最最基础的东西,你领悟了核心要点,那么操作收录起来就会变得游刃有余,如下图所示:
5 K# X# G* V8 \+ a- B3 k/ m6 E7 t 2 K* c6 [' |6 m+ s2 ]
通过百度百科的文档中我们可以看出,整个原理是从最初的爬行抓取建立索引搜索词处理排序,虽然才几个步骤,但是每个步骤都有他的核心要点。下面我将把整个核心要点给大家一一剖析。& t5 ~2 E4 j4 f* h. S* ~% _8 }* D
一、爬行与抓取
. c% k" [. [+ }) W8 |/ `+ Y! ?首先我们要了解到搜索引擎蜘蛛要想爬行和抓取一个页面必须要满足两个特点,第一、足够的外链来吸引蜘蛛抓取;第二、网站的更新频率。在百度站长平台里面每个站点都会有一个抓取频次,而抓取频次我们可以特定的看作站点受蜘蛛的喜爱程度,也可以通俗的理解站点抓取频次越高,那么你站点被蜘蛛喜爱程度就会越高,从而你的收录就会加快。如果使用蜘蛛池这类程序的同学,我想就应该非常清楚,但是很多朋友即使使用了蜘蛛池那也只是外部链接进行吸引蜘蛛,如果配上站点更新频率,效果更佳!. j9 g, P' y- n! Q2 ~/ Y
二、收录与索引
+ ^5 c4 b+ I2 X1 a9 Y大家都会通常的认为页面收录与页面建立索引并无太大区别,其实不然,在整个站点页面文档中会有两种情况发生:
( I/ ?3 Y @, Z# k$ Z1、URL收录=是,索引=否;代表已经进入了索引,只是这个网页的“权重”非常非常低,可以视作是“无效索引”。
9 {" b! l/ h2 v- Q# ]* v6 I2、URL收录=是,索引=是;代表已经有资格参与排名,但是不保证100%能获取排名,可以视作是“有效索引”。
% ^ t f& v. p. M% T+ m: D我们可以简单的去理解site出来的站点页面是被收录的,但不代表site出来的页面是被索引的。但是我们依然可以去检测出页面是否具备参与排名的资格,如下图所示:; E5 `- W1 V% H

$ R5 [* v( i! ]4 C" ODomain与Site最大的区别在于后者可以统计页面收录,而前者我们可以分析出站点外链域,而这里的作用我们并不是去讨论外链域,而是仅仅使用Domain命令来检测站点能够参与排名的有效数值。
# X9 N1 I- U1 \9 y [2 w/ X; B2 `2 U其实大家可以用一种非常简单的方法去快速检测你的页面是否有参与排名的资格,如下图所示:
; s( U: P; q' T & E1 I; ~6 h8 l6 X- C' I

8 ?6 H8 q: v. V1 K8 r ( d! x, O/ K0 o' Z' S! Z3 W' z
上面三张图我们可以把site出来的收录页面进行搜索查询,可以检测到页面被收录,但是当你搜索整个标题却没有排名,也就是前面我提到过的url收录=是 但是url索引=否,说明网页“权重”较低,并没有参与排名,那么我们再来看几张图,如下图所示:% j# P/ U0 h/ x/ Y

& j6 L" U& Z6 i; f
8 T. I3 K0 q$ |. D; G' W
* x1 b- X( J3 B* \从上图我们可以看得出,该页面不仅仅被收录,还建立了索引,并且搜索整个标题可以检索到排名。从这点我们可以看出,索引的页面无需做任何外链、内链、甚至是抄袭的文章即可有参与排名的资格。那么问题来了,该如何进行有效的页面进行建立索引并建立起参与排名的资格?, q" B8 K: ^7 _4 n+ D7 N$ j* B
很多人在思考一个问题,文章要尽量原创,满足用户需求,提高用户体验等等。但是为何有些站点收录非常好,排名也非常不错,文章却是采集或者伪原创。讲到建立索引以前,我们继续先把剩下的一个工作原理分析完毕。1 l" c& M2 S3 u& C- d6 ]: C
三、检索与排名
9 E# i0 q, l, L/ w5 K, }在整个检索与排名中,会体现出最常用的两个搜索引擎原理,一个就是倒排索引,另外一个就是TF-IDF算法,首先我们来了解下倒排索引的更新策略,如下图所示(来自百度百科-倒排索引):
% d/ m) ~8 C' B3 F
$ }! j: ?9 h* ^3 y6 w% S在整个倒排索引结构中,最常见的有四种更新策略,而上述的案例中就用到了其中两种,如果大家仔细的去观察我的每一个文章,就不难发现即使我的页面是纯抄袭文章,但是我抄袭的每一个标题和原来标题不相同,并且标题会更加的去符合页面内容,提升页面词频需求(TF-IDF)。其次则是抄袭的文章不会直接复制粘贴,我会进行重新排版,重构页面从而达到页面并非采集的作用。
L3 `+ C) I+ S- W% A在搜索引擎里面。有一个算法叫做TF-IDF算法,简单来说,TF-IDF算法是用来检索页面文档关键词出现的频次。并且可以通过该算法计算一个文件集合里面的词频出现的次数从而来评定一个页面的重要程度。而该重要程度是结合页面TITLE来计算,也就是大家常说的文章内容要符合页面标题的主题相关性(类似作文写作中的紧扣主题)。; R0 |! ?; \0 O1 h2 I
看到这里,我相信很多朋友就会理解为何蜘蛛池程序可以快速提升收录并且有部分页面进行参与排名,很大的一个特点就是蜘蛛的频繁抓取,从而建立了索引,在短时间内让页面“权重”提升,并且促进排名,而新闻站点的原理也是因为蜘蛛抓取频繁的特点,几乎无需发布任何的外链即可有很好的排名。
# }) b5 ]" g! z' V6 H8 Y9 }- S; z) B现在我们再来分析和思考整个页面的抓取到最终的检索排名我一共操作了哪些:+ ?: n% v5 V, A8 @ B; L
第一、大量的不定时更新,让蜘蛛抓取频繁抓取(建议给百度提交站点地图,定时更新站点地图)
9 Q7 Y9 g2 v8 q第二、大量采集文章通过修改标题与布局重构让页面变得更新有新鲜度(满足更符合页面的用户需求)
- Y8 h2 e& K/ X7 y5 w' p. f) r- n第三、每天保持大量的更新让蜘蛛抓取形成习惯5 u% B, G9 G9 G* S, k9 y
第四、由于该站是老域名,加上站点原始数据积累,可保持站点的权威度,从而相对新域名来说站点更加具备抓取优势。
" ?+ a8 X. w4 i; B总而言之,虽然最后只给大家留下了4点,当然也有很多SEO同学会觉得我说了一堆没用的,但是如何你真正的去领悟到我所提到的一些核心要点,那么你就不难发现SEO建立索引的奥妙所在,做SEO,思路决定出路,我更加建议seo同学们可以多去了解搜索引擎的一些基础算法和百度官方优化指南文档,如果能够把里面的任何一个核心点通过实战的方式去吃透他,那么比你看任何的所谓的SEO文章都要有价值!/ y/ m4 j' l7 e, Q0 Z7 O/ b
来源:aoshizhen! v3 a. D* ~4 T4 r2 O* }, V
7 D3 f( U0 a" Y; D5 \3 A2 U
( h H# }& {% g, W$ k0 }4 S, U1 U5 ]- R
% h7 q3 h5 L4 _
|