找回密码
 加入怎通
查看: 478|回复: 5

[SEM行业] 搜索引擎如何判断文章的原创度

[复制链接]
你好阿 发表于 2015-10-15 14:32:18 | 显示全部楼层 |阅读模式
未收录不代表未抓取! @$ m3 L1 h* }
0 J- y! O! e/ _+ s$ h; M# U$ p
确实,为了SEO的发展,自己辛辛苦苦写了两篇原创文章,被一个大型网站抄袭秒收录,而自己的站点却不收录,这是一件非常让人尴尬的事情,那么真的不收录,就不是原创了吗?7 m' Q5 O% B' ~7 z1 B4 s) h2 Q

8 G' _7 g7 l2 M& t( d: }) S4 }很多朋友是这样认为的,自己的文章没有被收录,而抄袭者的却收录了,所以百度判断自己抄袭了别人的文章,所以自己权重也就一直上不来,排名一直没有。其实这是一个错误的观点,我曾在百度排名规则的文章中提到,百度收录是需要经过抓取-识别-释放这三个流程。其中在释放的流程中,需要判断整体网站的质量,当整体网站质量过关,收录相对较快,当整体网站信誉度没有达到百度的标准,百度将会暂时保留你的文章,不被释放出来。
, E* }* ?/ U0 w% _; j' }
: s) K4 P5 [8 F4 w( S2 w1 |. r/ X& R1 F不被释放出来,但是已经经过了抓取和识别这两个流程,在这里特别的说一下抓取的流程,当网站建立以后,提交到搜索引擎,搜索引擎基本每天都会来抓取,大家可以试着安装百度云加速后台可以统计出抓取的页面,如果抓取不够,也可以在百度站长平台中设置抓取频率和sitemap自动推送,这样抓取的是完全没有压力。设置方法如下:
2 x% p% r, `2 }+ h% C2 o9 T1 G" b
9 v. u" J( M! ?& T# X! W打开【百度站长平台】点击左侧导航【我的网站】-【站点管理】-【添加网站】-输入网站域名,根据自身条件验证网站。" @) W0 S" B1 k- c* F
$ O/ T4 d* S- C, Q
然后点击左侧导航【页面抓取】-【链接管理】-提交方式选择【sitemap】,然后将自己的网站地图提交上去,更新时间更具你网站的更新时间来设置,比如网站每天更新一篇文章,那么就填写1天,论坛、门户可能添加的比较多。
9 |4 Y3 n3 ~0 p1 p3 y; l: i7 E, l$ ^6 o0 l5 [
另外在把sitemap地图写到robots里面,抓取基本是完全没有问题,那么接下来就进入识别系统,每一个页面抓取了,就一定会进行识别对比,是否会出现重复,与互联网的内容重复度有多少,从而判断出页面的原创度。那么在已经判断出原创度的时候,再来谈收录,先收录谁不代表谁就是原创了!1 g1 Q0 p+ a2 b5 T8 B

  }# W! T: u) L/ \) U& r8 {如何判断文章的原创度?
6 F& |. G" Z; z+ W4 U% e7 S' w0 g, U0 V
并不是你网站有文章,是你自己写的,就一定会被搜索引擎认为这是一篇原创文章,因为其中还有很多技术方面的问题,搜索引擎还未能解决。7 R' s4 i8 G& B) P% J

6 N, L7 L( w& @. P- E8 D记得曾经在一个网站每天更新一篇文章,一篇文章的字数只有100字左右,但是文章页面非常简单,简单到整个页面没有JS、CSS、HTML代码,只有文字,但收录却非常好,而有一些网站,用JS、CSS、html代码把网站修饰的非常漂亮,但是发布的文章却不收录,这让我开始觉得代码与原创度有直接关系。# ]* F/ B9 H% u3 y" P! p8 K: v

, r' u2 [5 S4 c1 m在哪里看到过这样的一句话“搜索引擎只能识别200KB以内的内容”,对于一个网站而言,200KB算是很大了,我的博客只有30KB左右,所以我博客在搜索引擎中抓取是完全没有压力,如果你的网站有超过200KB,我觉得你是应该要优化了。4 X+ }' E+ _& N7 a- a

4 k  I# w' F. N& P6 K2 q5 _  m这和网站的文件大小有什么关系呢?好,我们来看看,搜索引擎在抓取一个页面的流程是从头到底,任何一个页面都有一个共同点,那就是头部一样、底部一样,唯一不一样的就是文章内容,那么搜索引擎在抓取头部有10KB左右是一模一样的,到中部文字的时候只有2KB是不一样的,而底部又有10KB是一模一样的,那么还会认为这是原创文章吗?
8 j: Y% V* ?4 T* C' a! P8 Q
9 e& d5 l+ }  o' L. p: q这里还得给大家灌输一个理念,那就是搜索引擎是不认识字的,他只有把这个汉字放到他的数据库去对比,当一对比一个新文章页面的时候,总共22KB的页面,居然有20KB一模一样,就算是写了原创文章,也会被列入到伪原创的列表中去。
* ?; T. M( Y; V! a& O; R3 U3 }3 W/ K* f1 G& d8 O0 [& h
经过我3年的SEO优化加测试,我对原创文章的判断得出了这样的一个理论,当一个页面比较大的时候,一个页面的不同点至少占页面的1/3,那么写多少文字呢,比如你页面有10KB,那么至少的写3KB的文字,剩下的7KB相同,这些才不容易被列入到伪原创的列表中。当然,这是我个人得出的理论,并没有完全的证据和理论来证明。
' d2 K1 f  R! V5 h1 A" N9 [' D, [" ^! V& I% a
为什么抄袭者的网站更容易收录?6 p! {) y5 C! V# f( r: o3 s

5 F$ ^2 d+ c, X7 d0 X+ `0 t3 O那么还有一个问题来了,既然要抓取、识别、释放这么复杂的流程,为何抄袭我们网站的内容还先收录呢,这是大家很纠结的这个问题,我也纠结了很久,直到有一天,我自己做了一个平台,每天让自媒体人发布非常原创内容的时候,我才总结出来,为何越抄袭越容易收录!: B# L+ E# c3 L

" {; T) \' f% Y- \4 P& K; T. q在谈论抄袭者网站为何会收录块的时候,我觉得咱们先要搞清楚新闻内容是收录流程,新闻内容相对普通的内容收录较快,因为新闻内容具有时效性,所以必须当场发当场收录,然后释放出来,不然拖到第二天在收录的话,这个新闻可能不热了,关注的人也就少了,百度从而失去了这个体验。
8 w  a9 Q- G; P$ P! Q  w2 Q9 h& v+ c
而抄袭者的网站与新闻内容类似,通常抄袭者的网站是抄袭过多篇文章,其中有直接抄袭原创者,也就抄袭二手文章,抄来抄去,互联网同样的文章就非常多了,当一篇文章被互联网多次抄袭,这就意味着这篇文章比较热门,不热门怎么会这么多人抄袭呢?最终就出现了一个热点效应,收录的门槛也就降低了。所以就出现了抄袭者抄袭了你的文章,比你还先收录。  v& d/ f. T4 g2 e
" {) y; z5 t6 h  s4 T( [* l( U0 L
防止抄袭最好的办法9 G" p- \8 h+ e8 C" w! o$ ]
什么禁止右键、禁止复制这些方法都弱爆了,对方要抄袭、要采集,你这么点技术禁止,对他来说是完全没有作用,况且人家采集是直接从代码中采集,并非实际来到了你的网站,而且还会让你的读者觉得你网站体验就严重问题,所以我非常不建议使用这些方法来禁止抄袭者,我也是这方面的过来人,现在我是用这些方法来对策的。
) F* k- F: t6 p' a1 |6 k; n( L8 w当我今天把文章写出来后,不管是否收录明天将会把文章通过投稿的形式发布出去,通过投稿的形式,对方会完全的尊重并且保留你的版权,即使没有留下链接版权,至少也会留下品牌词的版权。
4 E6 ~+ K' ]$ f7 M7 w' D投稿成功以后,当抄袭者在此抄袭这篇文章的时候,互联网已经有很多此文章了,第一他会觉得互联网文章太多,不会再次抄袭了,因为他想抄原创文章,第二就算他抄袭了,互联网你投了这么多文章,最终公认的版权是你的,并且多个页面有URL直接指向你的页面,这也是给你这篇文章做了一个最好的外链。$ p0 i; A2 {. t
总结:其实对于抄袭者并不是很可怕,对我们来说,应该是一件好事情,当他们抄习惯了,自然会帮我们做到推广的作用。3 H  b6 L/ j- {% _5 U; t% H
& d4 H# o, x  a5 s  U* K
回复

使用道具 举报

张霞-zdgbyy 发表于 2015-10-15 14:32:32 | 显示全部楼层
沙发怎么能少了我?!
回复 支持 反对

使用道具 举报

橘笙笙 发表于 2015-10-17 21:04:24 | 显示全部楼层
我这里有一个SEO学习交流群,诚邀共同学习。 群号:338627754   验证:594
. U* @, n5 f3 k0 k在外漂流的孩子,赶紧进组织吧
回复 支持 反对

使用道具 举报

匪兵头 发表于 2026-01-09 19:41:12 | 显示全部楼层
楼主太厉害了,整理得这么详细,必须支持
回复 支持 反对

使用道具 举报

fus 发表于 2026-01-12 07:47:57 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

清零专家1 发表于 2026-04-08 08:34:51 | 显示全部楼层
蹲了这么久,终于看到有价值的讨论,支持一下!
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-4-8 10:57 , Processed in 0.054404 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表