找回密码
 加入怎通
查看: 705|回复: 4

[关于百度] 百度蜘蛛的火眼金睛是如何炼成的?

[复制链接]
郑州一帆机械 发表于 2012-07-25 15:33:27 | 显示全部楼层 |阅读模式
很多站长其实都在困惑一个问题,那就是百度蜘蛛是怎么分辨一篇文章到底是原创还是抄袭的,如果同一篇文章在百度没有收录的情况下,自己拿来用百度会不会认为自己抄袭等。今天,咱们就探讨一下这个问题,当然,以下言论纯属个人意见,看官您觉得不错的,就叫声好,不屑一顾的也欢迎拍砖。还有一点,如有雷同,纯属故意。。。呵呵,闲言少叙,直入正题。  b& w# o* m) n$ r  i3 @
一、首先要明确一个概念:原创 伪原创
: Z0 {$ I9 a$ S, u5 h% O  u原创:简单地理解就是第一次在网络上发表的内容,以前没有出现过的内容。
( d' g- ]9 @+ Y% D4 j; n% m$ |1 J伪原创:就是从网站找来资料进行二次加工,二次修改之后的内容,如修改标题,修改内容,增加些文字或者减少一些文字等。
; G! F' B# q; Z6 l" X0 ]% s% C那么搜索引擎对于原创的判断是如何进行的呢?% Y0 X: [9 K4 m: Q* d+ z9 |
一般来讲有以下几个方面的因素决定:: [  U- |% B, {" W9 S4 X- @( A
1、快照日期。
" G; {4 p( @" |. _2、蜘蛛抓取日期。3 d8 a- }: Z$ |, X- J
3、页面外链的多少。$ Q( T' C, e( u* k4 }6 Z! R
4、文章修改的程度。" @; g( S* Y6 G( i, ]: t
二、举个例子如果你在这个网站上发布了一片文章内容。搜索引擎来到这个网站并且抓取到了这篇文章,放到数据库,并且在收录数据库中没有发现类似内容,那么就会被认为是原创。
" `6 @0 J0 b8 n/ j6 y在这点上有个细节需要注意:  m- T! _% w3 h% w6 h
1:文章必须被收录,如果没有被收录,肯定是在搜索数据库中找不到的,搜索引擎根本就找不到这篇文章,更谈不上什么原创了。# y+ H) R- h: g8 _4 X! A
2:文章被转载7 \, B/ t2 c& \- o& K; F: E
如果刚发表的一篇文章被其它转载了,那么谁是原创呢?那要看谁更先被搜索引擎抓取到,也就是更新周期的问题了。如果a站(http://jianzhulaji.org)发表,b站(http://www.shashiguliao.com)转载,如果先抓取到a站,那么归a,如果先抓取b站,那么原创就归b站了,所以不是说你先发表了,原创就是你的,这个得看搜索引擎什么时间收录了你的内容。( @) n- T7 n7 U6 G% N
3、访问时间5 J. M( G% s& p) l' r$ l0 v
如果蜘蛛先访问了B站呢?+ p# G" f) U! L5 t1 Z" {2 {
1、当然权重给B站,一般的情况下都会这样!
  i$ A5 `; u: b: @- A% S/ X2、如果B站转载的文章带了A站的原文章页面链接呢?
# b6 e! t1 `% k3、这就很明白了,刚收录的时候,如果排名,两条结果一起出现,有可能还是B站的排名好一点。
2 B! A# f* G2 `5 K2 x! J当然,文章转载次数多了以后,A站的链接越多,对A站的文章越有好处,排名会慢慢变成A站在前面。  n) {$ V8 v: n5 s2 t3 q
如果另外转载的文章带的是B站页面的链接呢?; V' H* ?8 q% M
它们如果判断不好,就变成了一个链接流行度的比赛了。* m' T9 U; A$ P1 t7 |
不过,如果都有很多外部链接,并且相差不大,那么判断的规则应该回到原点,谁先被收录谁就是原创。
$ W9 q: |- w0 R' ?* l4、快照日期7 b/ E4 E  N' @% w% P$ J
快照日期显示时间最早的,一般就是原创了吧!
+ ?$ Z4 G$ k# @( g/ P不一定,这个说法要在一个更新周期之内,比如说文章发表后一周内,快照时间越早的地址将越有被认可为原创的可能。: p' B  R9 R' C2 U' Q% f
但如果文章都发表了几个月了,说不定搜索引擎已经重新获取过快照了,快照的日期就变了!7 b9 K# k( [- u# b
还有其它的可能吗?2 f/ @$ L1 i7 B6 v( x, X
有,一般比如百度收录,他可能会有一个收录的数据库,经过过滤后,收录的内容才会到搜索结果里来。在这个期间就有一些问题了,比如A站首次发表,B站转载。蜘蛛先访问A站再访问B站。而后可能先把B站的结果放出来了,而A站还在数据库里。' B0 b1 _5 q: q2 L7 Z- n2 @
所以说搜索引擎没有收录并不表示搜索引擎蜘蛛没有访问过这些内容,也许在搜索引擎的库存里已经有记录了,只是你查的时间没有放出来而已,就像25号才放出来的内容,但是快照是20号的,这就是搜索引擎的库存内容,同时这也是检验原创的核心时间点。+ X: U8 z+ @2 E  y* @- J
这种情况一般出现在新站与老站之间,A站发表,B站转载,但A站在搜索引擎的信任度并不高的时候。不过只要是A站先被访问到的,原创权还是A站的,这是最难分出来的情况,因为我们不知道蜘蛛先访问哪个站,除非你知道两个站的网站空间日志内容,能看到搜索引擎对两个页面的访问时间。" r' i7 b7 \' O  ~0 r- s
5、伪原创) d% I' b! S  r; M) C- |+ ?) F
伪原创也会被认为是原创?
/ _9 ~) x6 R- ]& S, W: j8 K% h大多时候是这样的,搜索引擎蜘蛛不能明确分别这些东西,因为它的思维太程式化了。如果你的标题改过,文章的段落改过,那么蜘蛛将很难确定这篇文章是否有过收录,也许它可以确定有部分内容是重复的,但它也不能因为这些而将这篇文章确认为是转载!当然,随着搜索引擎程式设计的提高,应该会有一个相似度的东西出来,比如文字内容相似度超过百分之几就会被认为是转载。- l: z$ a9 H, q& s7 d
这样分析下来,相信大家应该了解了吧。当然这些只是我自己的看法,希望大家吸收自己想要的东西,不认同的了也来提下自己的意见!
- V; ^# }! m1 V5 k另外提几个建议:3 U$ s9 ^4 Z$ Y# g+ n: k9 @& M
1、如果你的站是新站,权重不高,如何让蜘蛛首先找到你的页面并放入数据库?其实很简单:用网摘、百度收藏这些工具让蜘蛛更快的找到你的页面!2、大家都有过建议,就是加上自己的版权及内容页面的地址,别人采集的时候你就爽了,收录虽然不会快,但最后链接多了,你依然是原创内容。​7 s$ s' j4 H% M
3、发表文章等到自己收录以后再去其它的站点进行发表,同时加上自己的原文地址,这种办法很有保障!
! n9 t2 ?( u! [  l3 M  D7 s4 x本文分享来自郑州一帆机械圆振动筛www.shaifenzhan.com,如有转载,请随便哦。。。
回复

使用道具 举报

黄小辉 发表于 2026-03-18 03:04:53 | 显示全部楼层
蹲了这么久,终于看到有价值的讨论,支持一下!
回复 支持 反对

使用道具 举报

西万路小混混 发表于 2026-03-28 14:25:58 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

Luna 发表于 2026-03-29 16:50:26 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

头像被屏蔽
52helen 发表于 2026-04-30 10:36:31 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-4-30 10:39 , Processed in 0.121119 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表