找回密码
 加入怎通
查看: 1419|回复: 5

[关于百度] 百度蜘蛛辨别伪原创的方法总结

[复制链接]
qzxwlgs 发表于 2012-05-29 13:04:36 | 显示全部楼层 |阅读模式
  伪原创曾是SEOer提升网站SEO表现的一大利器,当然随着搜索引擎技术的不断革新,现在伪原创在提升网站权重方面的作用不像以前那么明显了。今天刑天团队就和大家聊聊搜索引擎能在多大程度上识别伪原创这个话题。! p: n. |$ T7 B- ~% M. V8 ?
! ]& h& b+ k  P
  一、什么是伪原创
. U2 G& P( C3 j+ S, B- U6 g5 u7 n) ?+ U5 P
  所谓伪原创就是把网络上已有的文章改头换面,让搜索引擎以为是一篇新的文章。采用伪原创的方法可以让网站迅速的充实起来,提升网站的收录率和收录数量,并且有助于提升网站的权重。& x+ \! h7 c2 T! V

, q% I6 j& }+ d& G9 a2 U# G: r  产生伪原创有下面两种方法:
8 L1 G. Y& f, L! z+ N- L3 H( o0 C* u0 w4 m0 \6 u  A6 n$ `
  1、使用伪原创软件生成文章4 y8 M: g$ Y2 H7 n- Y& b0 I
% @5 V2 n# u9 u' I! x( a
  伪原创软件的原理是抓取网络上大量的文章,再通过一些技术手段将其改头换面。
8 H  q6 C- o1 `3 `3 p, G+ n$ h
  伪原创软件常见的技术手段有:
. x+ S7 k. k& K) [8 t+ T  D
; }1 O, ]  p5 a, g1 m  同义词、反义词批量替换;
" s- T( Q. G7 m8 A9 a# |9 n- M+ Q: m' K+ C# X+ W9 y( x& {- U
  根据分布密度在文中随机插入关键词;5 Q  z! b* H8 Z% t2 v
3 F5 X. q& w: y/ L" T& c$ A) C
  将原文段落打断重组。1 A& Q2 X; d2 g

* ~; z, n' m2 I1 Q1 F+ I  2、SEOer人工编写伪原创文章
5 v9 F6 m/ N3 M4 j9 Y$ y# z' M2 i3 b
  刑天营销小编总结下来,人工编写伪原创常见的修改手段有改标题、改首段、重排段落或文字、增加图片等。3 W8 I& z  f2 b) m1 k
7 K& g% l/ Q* ]
  对于SEO人员来说,伪原创省时省力,但对搜索引擎来说,如果网络上布满了这类貌似原创的重复文章,不但消耗了搜索引擎的资源,而且会降低搜索用户的使用体验。因此,搜索引擎一直在针对性的修改算法,与伪原创斗智斗勇。6 I3 C7 I& P, }/ K
9 K  Z% N8 t  d: O" W
  二、搜索引擎如何识别伪原创3 Y' a9 x7 g6 C' ^

  m# M" q$ ]) G( S. R5 Z  搜索引擎识别伪原创的算法技术有很多,这里刑天营销向大家简单介绍几种。: V: z0 @- a" H

: n# h' E# Z8 \  1、TF/IDF算法
+ P0 Z+ \# M( Q2 W
) ^( R- E/ U4 \9 o: w  这是一种常用的计算相似度的算法。TF是TermFrequency的缩写,译成中文是词频,指的是某一个词在文章中出现的次数;IDF是InverseDocumentFrequency的缩写,中文译成反文档频率,IDF越大,表明这个词在其它文章中出现的次数很少,说明这个词有很好的类别区分能力。% n" V# z3 b  a2 t4 n
; Z, S( a8 L; m
  将两篇文章分别用TF/IDF算法计算后,各产生一个内容特征向量,如果两篇文章的特征向量相近,搜索引擎就认为这两篇文章的内容相似,如果两个特征向量一致,就认为这两篇文章是重复的,举个例子。0 c' O0 }0 C0 Q5 H7 Q$ G) T4 F: e
; W! I% I1 D+ O1 w3 ~5 N; C
  2、信息指技
3 ^5 }! _% b# P; U& g/ K
9 k/ b7 W9 q% E  信息指纹技术是指搜索引擎截取一段文字信息,通过然后根据这组词调用特别的算法,例如MD5,将之转化为一组代码,这组代码就成为标识这个信息的指纹。如果两篇文章的信息指纹相同,搜索引擎就认为这两篇文章是重复的。这些信息可能是标点符号,可能是一个词,也可能是一个句子、一个段落。通常一篇文章会对应多个信息指纹,因此刑天营销认为,单纯的词语替换(同义/反义)、打落段落顺序等伪原创手法是骗不了搜索引擎的。+ U3 Q( ~3 I/ ^: l6 U. A6 T

2 _4 b6 o8 j) A* i0 n( `  3、文章与站点主题的相关性
8 ?5 [+ i; I+ W5 j1 R" H; B, k9 n) F9 l. h
  百度等搜索引擎在收录网站的时候,就已经为每个站点划定了主题范围。如果某篇文章的主题与整个站点的主题相关度很低,比如你的站是一个做化妆品评测的站,其中却有篇文章是说挖掘机性能的,这样与整站主题不相关的文章也容易被搜索引擎认为是重复内容。4 h1 D' }+ b: f& _7 D( J

6 h+ ~! X+ l1 Y1 T  ?9 |, [  搜索引擎喜欢独特的原创的内容,在这里刑天营销也提醒广大站长,在做关键词布署时一定要注意主题相关,站内不相关的文章或者网页占到一定幅度,就可能引发搜索引擎的反作弊机制,被降权甚至K站。4 Q  C% |8 K) u3 u1 ~4 r  x
1 ?5 Q5 c  q! K
  4、借鉴二次搜索率、跳出时间等数据判定. i! v* Y& Z# y3 A" |
$ Z% V" i, h4 ]+ Y( W
  伪原创文章,尤其是程序生成的伪原创文章,它的阅读体验是非常差的。大家可以想象,用户如果在搜索时点击了此类文章,一定会很快的跳出页面,点击其它搜索结果,或者搜索另一个关键词。搜索引擎通过数据监测到用户的这种行为,也可能会判定这篇文章是伪原创文章。0 r' }8 j: G8 r5 q' L* B# z

# b1 M" A7 f  v3 c8 h  看了上面的分析,站长朋友们应该了解简单的替换词语等伪原创方式对网站是弊大于利,刑天营销认为,即使做伪原创,也要做深加工的伪原创,在借鉴别人观点的基础上自己再进行总结、分析,这样写出来的文章才对用户有价值,也才会被搜索引擎认可。
6 G6 \0 b  y, }( x/ I9 I6 `
回复

使用道具 举报

西万路小混混 发表于 2025-11-10 21:01:31 | 显示全部楼层
蹲了这么久,终于看到有价值的讨论,支持一下!
回复 支持 反对

使用道具 举报

西万路小混混 发表于 2025-11-10 21:02:07 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

火柴合 发表于 2026-02-13 00:20:22 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

seoread123 发表于 2026-03-02 20:44:26 | 显示全部楼层
楼主辛苦了,整理这么多内容,必须点赞收藏
回复 支持 反对

使用道具 举报

西万路小混混 发表于 2026-03-13 00:32:10 | 显示全部楼层
完全赞同,我也是这么认为的,英雄所见略同~
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-13 13:50 , Processed in 0.089910 second(s), 26 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表