搜索引擎对网页的过滤

as741 · 发表于 2015-12-05 16:56:45

一，网页去重

并不是蜘蛛每抓取到一个新的页面就会添加索引（收录），而是要考虑这个网页有没有收率的价值，影响要不要收录某一已抓取下来的网页，一个比较重要的问题是：页面的重复度。

如果同一篇文章，或者具有高度相似度的文章，被多次收录，查询对应关键词是展现的搜索结果用户感兴趣的大部分的前5名，同一篇文收录太多是浪费搜索引擎服务器资源，并且也不能很好地维护原创，搜索引擎就无法给用户提供最新信息。

二，信息结构化

爬取程序从互联网上下载页面资源添加到网页库，这个页面包含图片，锚文本，正文…等等信息。搜索引擎需要对网页信息结构化。获得网页中的：页面标题，锚文本，正文标题，正文…由此可见，一个网站所有页面标题都一样有多么可怕。

三，查重技术

这里并不是给大家介绍详细的搜索引擎进行网页查重的技术，举一个例子—要想知道两个网页的重复度，参考出现频率高和频率低的关键词是没有多少价值的，可以这样做：一篇文章中去除使用高频率的词jich.net boxuelun.com huayueting1.com，像我们，可能，但是，…这样的词，去除使用频率低的词，像四爷爷，红太郎，李白…两篇文章的中平率词进行对比。大家进行伪原创的时候，喜欢用“然而”代替“但是”，用“咱俩”代替”我们“。其实这些并不是搜索引擎查重的对象，如果进行再深度的高度伪原创，那就付出的代价也不少了。

以上只是一个例子，搜索引擎判断两篇文章相似度的方法有非常多，不付出稍微高成本的伪原创基本是不行的，高质量的伪原创相当于对原文的修饰，使其更适合读者阅读，也算是高质量的文章。

四，网页消重

两个相似度非常高或者重复的文档，搜索引擎应该去掉哪一个，保留哪一个呢？一般有下面三种情况：

（1）追踪文章的原创，保留原创。
（2）保留用户多，曝光率较大的页面，使页面发挥最大价值。
（3）保留最先被收录的页面，这样也是一定程度上保护版权。
对于百度搜索引擎来说，我们看到的现象是2和3两种情况，网页消重，但是并不是绝对允许重复收录，我们去搜索一下还是有很多重复的文章。

追踪文章的原创出处，消耗大，而且不准确。保留用户多的页面，使网页多次被检索到，对搜索引擎的用户体验也是非常有利的，最先被收录的页面可以被认为伪原创页面。这样，我们经常会发现同一篇文章实际上被收录很多，是因为原创被保留，大平台转载的也保留。

sh123 · 发表于 2015-12-05 16:57:47

说的很对，sh123支持

百度权重1-7 · 发表于 2026-01-22 14:19:02

说得很实在，没有夸大其词，这种真实分享太难得了

hzdqbaobao1 · 发表于 2026-02-22 21:43:19

楼主太厉害了，整理得这么详细，必须支持

		自动登录	找回密码
密码			加入怎通

[站长八卦] 搜索引擎对网页的过滤