网站建设中最令人头疼的就是内容来源了,想要弄到原创内容很麻烦,要么自己写,要么采集后伪原创。自己写太费劲,而且终究不是长久之计,总有一天会江郎才尽,伪原创这个可以适量的做,但是现在搜索引擎越来越智能化,且原创字数比例比较低,也没有完全原创的内容质量好,暂时不在笔者文章阐述范围内。
, N, m) U0 u# {7 j9 Z
# g# R% ^7 n" v6 p0 D' U1 k2 w 现在我们要说的是如何通过现有网络资源获取到几乎完全是原创的内容,这里完全原创的内容的定义是: 对搜索引擎来说是原创的,当然内容肯定不是你自己原创的,都来源于网络,服务于网络。我主要有以下几个方法,供大家参考:+ Y; z% D. F2 K4 q3 L- N
9 e% b& B+ I# I5 @) ]2 L8 I
方法一:
/ }) u& o5 x- ?7 u* N. J3 X: k% Y0 {9 e
通过下载网上的电子资源,复制里面的内容后发布到你的网站上,前期简单查询下网上是否重复的太厉害,做下筛选,一般不是特别热门的电子资源很多网站发布的时候都没有写内容或者写了很少内容,摘抄内容的时候尽量选择目录部分和内容的中间部分(一般网站发布资源的时候都喜欢复制前面的部分或者后面的部分)。& {" m; A5 l0 V- J9 ?
3 W# e3 R. l$ S
电子资源这块有些资源是做了版权保护的或者是pdf扫描之类的,其实这种资源是最好的,只要里面内容是文字不是图片,怎么把扫描的图片变成文字,这时候大家应该想到一个技术叫ocr了,跟大家推荐几个软件,针对不同文件用不同的软件效果会更好,这个大家实践下就清楚了。软件名称分别为:汉王 pdf ocr ,汉王ocr 6.0 ,汉王文本王文豪7600完美专业版,都是汉王的东东,网上均有破jie版的,大家请自行下载后安装。通过ocr软件我们就可以获取不能直接复制的电子资源中的文字,包括任何电子资源,而且这个内容肯定是原创的。这个方法有点问题就是ocr的识别率问题,识别后稍加调整内容即可。5 S4 q3 z% T* O: L8 c1 K
* _4 F+ H1 {: |) L& U
方法二:) ^, | _+ s9 s1 {/ \2 @
3 }. x8 |. a6 |2 `8 | 在大学里面熟悉局域网的童鞋很多都应该用过ftp扫描软件,通过这个可以获取到很多校友个人电脑里面的东东,^^ ,里面的很多资料也都是原创的,甚至什么报告,论文,学习笔记,课件之类的很多啦,还有一些… 大家知道的啦,暂不阐述。8 Q8 l- A9 O8 Q2 }
E% M( ~6 t. ]& K3 [ 方法三:
) K, V* k# R1 W# d0 w: R# B# R$ R) b9 A6 u z# v- q
大学图书馆的很多数据库,里面很多资源都是原创的,有些数据库可能需要学校内部ip才能上去,大家可以去找代理或者找学校的朋友帮忙。这种资源只要找到,采集下来基本上都可以用,我的聚合吧就是这种资源做成的。8 A, y9 D) X3 N1 f# W3 o
U! x9 K) l; s' a0 {" V6 I 方法四:
( q- D5 Q5 x6 }* O0 l! T% \9 @) U4 o) ? ^4 {$ H& y6 R# U, Y9 r
找到一些没有被搜索引擎收录的网站,这个跟方法三中的数据库一个道理,数据库也没有被收录,比如淘宝论坛 上面的内容很多都是原创的,来源哪里就不说了,看下域名就知道了。
! a( }, Q0 ^8 D' O& Q/ _" g b& q# Y$ c4 P0 U- P
总结: 世上的东西只有想不到,没有做不到,站长们在忙碌的时候不妨休息下,好好思考下做事情的方法,方法找对了,也许你忙碌的效率会提高很多倍。 |