找回密码
 加入怎通
查看: 368|回复: 3

[站长八卦] 搜索引擎对网页的过滤

[复制链接]
as741 发表于 2015-12-05 16:56:45 | 显示全部楼层 |阅读模式
一,网页去重. a# d) k  `( [0 ~3 P
6 I. W3 ^+ R% }
并不是蜘蛛每抓取到一个新的页面就会添加索引(收录),而是要考虑这个网页有没有收率的价值,影响要不要收录某一已抓取下来的网页,一个比较重要的问题是:页面的重复度。
$ O1 p, d$ a* W1 E8 G- A# y0 `8 R% w$ j2 I9 u* A1 U' J& f) Y
如果同一篇文章,或者具有高度相似度的文章,被多次收录,查询对应关键词是展现的搜索结果用户感兴趣的大部分的前5名,同一篇文收录太多是浪费搜索引擎服务器资源,并且也不能很好地维护原创,搜索引擎就无法给用户提供最新信息。
2 a# W5 E# P4 B3 ~" J8 r4 o
5 U0 T5 J" _! V' M- M二,信息结构化) H; `1 J/ Q  |; h! N& E
  [! J& H7 h4 x+ t- I9 M, ]" W
爬取程序从互联网上下载页面资源添加到网页库,这个页面包含图片,锚文本,正文…等等信息。搜索引擎需要对网页信息结构化。获得网页中的:页面标题,锚文本,正文标题,正文…由此可见,一个网站所有页面标题都一样有多么可怕。
4 K9 y0 s4 n( {/ p0 s* O# [7 {4 r* R
三,查重技术
& m* O7 z; e+ @, |+ o- k6 ]% Q; L, B2 t, f
这里并不是给大家介绍详细的搜索引擎进行网页查重的技术,举一个例子—要想知道两个网页的重复度,参考出现频率高和频率低的关键词是没有多少价值的,可以这样做:一篇文章中去除使用高频率的词jich.net boxuelun.com huayueting1.com,像我们,可能,但是,…这样的词,去除使用频率低的词,像四爷爷,红太郎,李白…两篇文章的中平率词进行对比。大家进行伪原创的时候,喜欢用“然而”代替“但是”,用“咱俩”代替”我们“。其实这些并不是搜索引擎查重的对象,如果进行再深度的高度伪原创,那就付出的代价也不少了。+ }  K$ k9 Q$ B, [, l
# p- D# s9 f- y: j: R
以上只是一个例子,搜索引擎判断两篇文章相似度的方法有非常多,不付出稍微高成本的伪原创基本是不行的,高质量的伪原创相当于对原文的修饰,使其更适合读者阅读,也算是高质量的文章。
* p3 e* t2 Y. y+ P) D0 r4 g: g' J
四,网页消重  D& E) M0 K# e

% D! l0 I' S; v6 G9 a, _8 D两个相似度非常高或者重复的文档,搜索引擎应该去掉哪一个,保留哪一个呢?一般有下面三种情况:
% L0 B1 w; l. J& |2 m" o; _5 D. T& P# W
(1)追踪文章的原创,保留原创。" i; e, g2 l3 Q/ D. Z  `; U! F6 Y
(2)保留用户多,曝光率较大的页面,使页面发挥最大价值。+ V7 M% [+ @+ x5 i
(3)保留最先被收录的页面,这样也是一定程度上保护版权。
' O$ N5 m8 G+ n; Q/ @对于百度搜索引擎来说,我们看到的现象是2和3两种情况,网页消重,但是并不是绝对允许重复收录,我们去搜索一下还是有很多重复的文章。
9 o; K! h) }& C: {" n) `, n1 g8 Z4 F! P, D
追踪文章的原创出处,消耗大,而且不准确。保留用户多的页面,使网页多次被检索到,对搜索引擎的用户体验也是非常有利的,最先被收录的页面可以被认为伪原创页面。这样,我们经常会发现同一篇文章实际上被收录很多,是因为原创被保留,大平台转载的也保留。: r6 B- g0 Q: c! Z2 k/ ^
( M7 s5 n( ]1 q1 O% V: D* r
回复

使用道具 举报

sh123 发表于 2015-12-05 16:57:47 | 显示全部楼层
说的很对,sh123支持
回复 支持 反对

使用道具 举报

百度权重1-7 发表于 2026-01-22 14:19:02 | 显示全部楼层
说得很实在,没有夸大其词,这种真实分享太难得了
回复 支持 反对

使用道具 举报

hzdqbaobao1 发表于 2026-02-22 21:43:19 | 显示全部楼层
楼主太厉害了,整理得这么详细,必须支持
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-13 15:21 , Processed in 0.133373 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表