一,网页去重4 L/ {/ i0 F# _4 \# n/ q S! }7 W* V
- @) ^9 x# C/ Q% I8 M( d2 `$ O- E C. F
并不是蜘蛛每抓取到一个新的页面就会添加索引(收录),而是要考虑这个网页有没有收率的价值,影响要不要收录某一已抓取下来的网页,一个比较重要的问题是:页面的重复度。
" J e( L$ m8 n! e3 w' o7 r' l$ P$ r7 H4 G& Z' U) { _1 d/ G
如果同一篇文章,或者具有高度相似度的文章,被多次收录,查询对应关键词是展现的搜索结果用户感兴趣的大部分的前5名,同一篇文收录太多是浪费搜索引擎服务器资源,并且也不能很好地维护原创,搜索引擎就无法给用户提供最新信息。
9 P4 t$ B8 Q& n1 S1 ^! W/ K. T, o. N$ m
二,信息结构化
% _- x! I9 C* Q) p* O$ C+ Q0 L: M3 `; N1 f" B) \7 J* X
爬取程序从互联网上下载页面资源添加到网页库,这个页面包含图片,锚文本,正文…等等信息。搜索引擎需要对网页信息结构化。获得网页中的:页面标题,锚文本,正文标题,正文…由此可见,一个网站所有页面标题都一样有多么可怕。% O8 y, B5 R. Y( ~. f
3 R/ q0 z4 T4 `4 h! k) X- s三,查重技术 Y& f$ `" _) _2 y% |) H
/ p3 E$ f" V. |0 G
这里并不是给大家介绍详细的搜索引擎进行网页查重的技术,举一个例子—要想知道两个网页的重复度,参考出现频率高和频率低的关键词是没有多少价值的,可以这样做:一篇文章中去除使用高频率的词jich.net boxuelun.com huayueting1.com,像我们,可能,但是,…这样的词,去除使用频率低的词,像四爷爷,红太郎,李白…两篇文章的中平率词进行对比。大家进行伪原创的时候,喜欢用“然而”代替“但是”,用“咱俩”代替”我们“。其实这些并不是搜索引擎查重的对象,如果进行再深度的高度伪原创,那就付出的代价也不少了。- q6 w" D; W& M3 B8 u
& u5 I! l8 P% T6 R9 H
以上只是一个例子,搜索引擎判断两篇文章相似度的方法有非常多,不付出稍微高成本的伪原创基本是不行的,高质量的伪原创相当于对原文的修饰,使其更适合读者阅读,也算是高质量的文章。% C# q( f' L3 R Z
3 |* ~0 _% m5 M1 v) o/ ^
四,网页消重 o% `8 v5 `" H: W! c, R
3 @* y/ w4 H8 W) n
两个相似度非常高或者重复的文档,搜索引擎应该去掉哪一个,保留哪一个呢?一般有下面三种情况:
) W8 ?; x! N& y. r- ^2 Q, c" j% T3 F
, K ~1 L4 L+ z(1)追踪文章的原创,保留原创。
0 j0 b8 r# V% L1 b$ i6 t/ U. \- @$ l(2)保留用户多,曝光率较大的页面,使页面发挥最大价值。* G6 |; c- ] o5 [9 R) s8 P
(3)保留最先被收录的页面,这样也是一定程度上保护版权。( U0 ~1 z7 ~" I0 E: N( p
对于百度搜索引擎来说,我们看到的现象是2和3两种情况,网页消重,但是并不是绝对允许重复收录,我们去搜索一下还是有很多重复的文章。+ |2 m9 j) m: b# I& Q+ ]2 [
- [! \% U4 O, B( l8 S. ^追踪文章的原创出处,消耗大,而且不准确。保留用户多的页面,使网页多次被检索到,对搜索引擎的用户体验也是非常有利的,最先被收录的页面可以被认为伪原创页面。这样,我们经常会发现同一篇文章实际上被收录很多,是因为原创被保留,大平台转载的也保留。
7 S A8 L) S7 R0 A/ W+ |$ X, u/ I
& D0 v0 m) D7 j5 s |