百度网页搜索工程师lee对SEO问题的解答2012年8月10日,百度站长社区迎来第一期站长门诊开放日,神秘的网页搜索产品市场部大牛Lee“专家坐诊”,为站长们答疑。相信很多站长及SEO从业者也有所关注,为了让更多朋友了解,我特地整理了一遍,发到博客上。* ]4 ~0 L$ b9 [8 g
3 c4 N4 C+ |0 I9 Q" q& } 问题1:一个网站内有部分页面的title等设置一样,那么会不会影响到这些页面的相关关键词排名,还是从中选择一个权重高的合适的页面出来参与排名竞争?+ _# D" J5 T" _) p9 P( N
0 x( s1 T/ Z. _' ?, Q- q' z Lee:这种问题请参考《百度搜索引擎优化指南》,其中已经有非常明确的说明,多个网页title一样,意味着这部分网页搜索引擎判断其中心内容非常困难,也就不容易准确的给其一个合理的权值。
1 x; z8 Q7 [2 n) w( L- }7 U9 {( G6 v
问题2:网站一个网页多大合适,有的页面大小过200k,我一般都注意在110k以内,这个有数字标准吗?
3 L7 f( {$ `+ o0 w5 `/ c- m
( d* `6 K' F2 @2 s3 L, V2 a' P Lee:网页大小建议以用户能接受的程度为准,对百度来讲,我们能接受的网页大小肯定已经超出普通网页平均大小的数十倍,完全不用担心。
# J8 a3 [4 e, O2 ]( v( D% X# ^2 k# Q. {5 G0 t& X* R- K
问题3:百度对于网站分隔符、网站结构是否有自己的标准?目前医疗网站内容同质化严重,请问百度是如何来判定网站权重和自然排名的?
* ~5 X9 d' N* }) K3 C' A$ Y& n; U0 y1 j Y" f
Lee:网站的结构在保证用户体验的前提下,适当的做一些对spider的优化会有助于收录,我们推荐扁平的树型结构。《百度搜索引擎优化指南》中有详细的说明。1 N" C$ v, x, e4 l7 U/ K# F% _
% Y4 m5 f2 e/ F# M) X8 y j 关于同质内容,先透露一下,我们正在设计一套较完善的原创识别算法,不久之后也会邀请站长朋友给我们一些建议及抄袭的实例用做算法调整之用。, q! u: W- z- ?( [- R1 [' r
% P2 I& o2 o3 D$ j9 b3 P) N2 X
问题4:百度对于一篇原创文章的判断到底是怎样的标准?比如一篇原创文章可能最先是一个新站或权重较低的站发布的,但是已经被百度收录后,发表到其他高权重门户网站、论坛,这些网站可能会给文章来源站一个来源网址,可能是锚文本链接,也可能是纯网址;但过了很久,百度都无法识别文章的真正来源,总会将文章来源给那些高权重站。试问,这样对用户的体验好吗?
: n0 H% V4 s% M2 a7 Z+ ~% c4 ~) Z
* C A% S! M, k! L# o Lee:近期我们会就原创识别问题和大家做专门的交流,为了保证算法的寿命周期,我们不会公布算法的细节,但大家的意见和碰到的具体问题,都考虑到算法中。
0 ^5 F" P; x7 [2 k; |3 h( Y2 R( Y: ]4 a7 Q5 Z7 i$ u
问题5:百度对于链接买卖、站群和克隆站的打击策略是怎样的?4 J7 f4 f5 h* Z7 w
1 ^ K! J) [( |; d
Lee:超链应该是用户真心实意对网站的投票,买卖链接有违超链的本意,我们反对链接买卖。很快我们将就此类问题做一个专门的说明,同时也会说明我们对买卖链接的处理原则。" u# G+ \* r2 J8 q- y8 P9 F( C
0 U0 k3 U5 r/ q
问题6:如果站长们不投诉,被误伤的网站会一直被惩罚吗?有没有恢复的期限,是半年,还是一年?或者更长?) r% O8 s# t" j6 F) \" {1 o5 o* F) V2 \
! }# d, M5 w/ P9 s; R0 V* \ Lee:我们的策略都会定期的review/改进,不同的策略有不同的周期,天级到月级不等,我们会持续的改进策略,以减少误伤。$ Z& Z, O3 s3 O" D4 q: B2 ?
1 j6 [- G5 I/ X: o 问题7:针对一些大站 比如B2B、分类信息站,其大部分每天更新的都是产品详细页,因为客户都比较懒,发布的信息都非常简单,没有几个字,导致大部分页面看起来相似度都很高(因为产品内容详细页都是一个模板),请问百度是怎么来评定这个站,并对其的收录情况及评价情况有何标准?
, [! `( A; p' ?# u8 B3 x6 B5 \; b' |% ?, ?" I/ Z6 c# B% @# ?
Lee:搜索引擎对网页价值的判断,不是从字数出发的,而是从其资源质量出发的,只要是对用户有价值的内容,不论长短,我们都会给一个合理的评价,如果这个网站上提供的内容或者服务非常有价值,无可替代,那对搜索引擎来讲,就是一个高质量的网站。% b9 I( |3 U: ~( K8 H5 N
% Z {$ N f4 P1 ^) R1 i8 F 问题8:关于描述的抓取怎么抓取的,看到一个网站的描述,不是meta name=”description” 里面的内容而是企业简介里面的内容,感觉不是乱抓取。
# J [5 S3 B x, X9 s
$ W" b t; J7 L- w. z# E# E0 w) h2 } Lee:我们的《百度搜索引擎优化指南》算是白写了。。。其中有很详细的说明,建议你认真看一遍第22、23页。& G! M9 \" C6 e' g
1 `1 K# @2 d' e4 U T
问题9:百度什么时候能发放,外链查询工具,还有网站权重对百度是否有用的工具。1 r+ |+ L `- T! r& b: |# [3 d
' b& t7 t: E$ ^0 _% Y Lee:外链查询工具请密切关注站长平台也许会有惊喜。# ]' S& {/ w2 ~2 o' z* W( N
4 N4 j3 H; S; Y+ Z1 Q 问题10:我的网站运营方式有点像中国知网文章内容没有显示完整的会员必须登陆并要通过上传原创文章交换的方式获得积分才可以下载全文这样会不会意味着用户体验不好百度予以降权?我网站上每一篇文章都是原创的可以说在网络上是独一无二的。! h) Z& _, ]& r# p7 m
9 L9 C' s3 A. v' w$ m9 u Lee:知网就已经是此类网站最佳的例子了,既然他在搜索引擎中表现很好,那还担心什么。。。
& k' e: f' ^- G- @& i, e" y1 K# t. W( L, g( V a, \8 }
问题11:自从大K站之后,许多的网站快照一直停留不动,不知道这是什么原因。是算法在调整,还是我们应该在网站自身找原因。
/ a4 O/ B3 q) _3 P4 Y) D
# w$ J) G s: ?5 d' ]% d* L. ]- l8 z Lee:关于快照的更新时间,尤其是首页的更新时间,我一直建议不要参考,这个时间跟网站的价值没有任何的关系,近期我们也会出一个专门的说明。
& d" O, X( x6 b' c
0 B7 V' Z; e5 P* o7 ?, X1 W: w 问题12:我们有一个专题专栏,里面大都是一些静态页面,但是百度一直不予收录,不知道是什么原因,其他的都收录了3 ~8 }+ C' b4 V& V! v; |
8 F' k! g- ~' X' F3 M3 j4 J, N, @
Lee:贵站犯了一个非常常见的错误,同一个网页,有两种以上的url形式,我们收录的,是不带index.aspx的那种。建议参考《百度搜索引擎优化指南》中关于url规范的部分。/ e& ?3 g" F+ d0 X8 d+ s
+ n8 O! ?1 ?! A3 q7 r% z 问题13:虽然百度的官方不承认有降权蜘蛛的说法,但是例如:123.125.*段的蜘蛛出现,网站在排名、收录上快照、都会存在异常,是否可以理解为这段IP的蜘蛛虽然不是降权蜘蛛,但可以认为是自身网站出现了问题,百度对于网站的考察和警示呢?是百度对网站所提出的警告呢?8 i% ?' B( s, a4 A
% j8 B5 |" s; f3 z' k Lee:Baiduspider只有一种,不存在什么降权蜘蛛。www.yaotang88.com不过你所提到的对网站的警示,我们会在站长平台中考虑。
+ q- o0 {. i6 j* w7 N3 s
4 K& _3 @" y# O& {: ~5 w 问题14:我有一个商城类网站,因为会经常产生大量下架商品,产生下架商品后,程序会返回一个只有模板的空页面,没有任何具体商品信息。以前我把这些下架商品所在的页面设置为404,在日志里看到大量的404状态码,请问这样会不会影响我网站的质量,长期下去造成收录和排名下降?
# ?' m2 S- W* u+ l) Y4 S& F
8 y) {: h/ j' }% I Lee:我们鼓励站长为死链返回规范的404代码,不欢迎给死链返回200代码。只要是正确的返回404,对网站没有任何影响,还可以减少baiduspider抓取给服务器造成的负担。如果死链数量较多,建议通过站长平台提交死链列表,更高效一些。5 F" D5 F% M& O' u! v. {; E
; I+ k! o" d8 P
问题15:<meta name=”keywords” content=”关键词” /> ,关键词标签的内容是否还会参与排名?2 j/ o& H- ^0 N- C
- G, ~+ _8 N4 j# ^2 H9 ?
Lee:meta keywords早就进历史的垃圾堆了,我们会直接忽略。# D# F- \; ^' Z
q) x9 Q5 h9 E7 q1 d
问题16:link标签 rel=canonical 属性百度支持吗?这个问题很关键。我们有大量同质的内容。我们想把同质内容标准化。
" B3 ?! m) }3 ~2 S% J
! O2 Z7 c8 ?/ i% m: e Lee:canonical 目前不支持,不过已计划要支持了。
! G2 Z/ Q2 S5 p% i+ R/ |! P( _) S; t
|