找回密码
 加入怎通
查看: 508|回复: 1

[SEM行业] 百度识别原创之路如何走?

[复制链接]
生活就要屁颠屁 发表于 2013-06-05 15:53:28 | 显示全部楼层 |阅读模式
  3.1 成立原创项目组,打持久战. r+ A: y$ U* e5 \- M1 D$ H
  面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。! A) C- ]8 e! b" H9 y. {6 Q- g% D" r' X
  3.2 原创识别“起源”算法
- `( ?. @: H6 S4 U8 S$ o  互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。9 ~" K1 I9 @- ?9 e
  目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着www.tianjinhantiao.com。/ w- \1 w# ~5 u. h& t. z
  3.3 原创星火计划2 i* l& Y: O. W: o6 y4 |
  我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。
' w: b4 ~' Q6 D) C9 g2 n5 `+ ^' P  目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。
. J4 V* f( k2 d4 l# T* M" I! L! G  人家成立专项组了,已挑明要搞持久战了。为什么看到这个消息之后,我很高兴呢?* ?2 O7 S% b% F% ]. {' l
  以前话费好几个小时、辛辛苦苦敲出来的文章,别人一个ctrl+c 一个ctrl+v 再加上很潇洒的去掉链接、或者很邪恶的换掉链接,这劳动成果就成别人的了。/ o, ?5 D: f" o+ q1 M1 ]- B* b
  现在好了,不要再去恼怒了,百度会用各种方法来判定的。, V, V0 m" m; W7 H- F" g) R/ |
  可以从发布时间、作者、链接等多个方面着手来判定你的原创。$ S* X, G: Y# B9 w  k1 r
  以后是原创的天下,草根站长走起www.daqiaochang.com  、
' t+ a* w, k% ~1 i
回复

使用道具 举报

curiosity 发表于 2026-03-17 11:23:43 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-5-1 05:17 , Processed in 0.449644 second(s), 23 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表