找回密码
 加入怎通
查看: 429|回复: 2

[其他] 浅谈蜘蛛对网站的抓取情况

[复制链接]
帝国时代 发表于 2013-05-06 13:27:48 | 显示全部楼层 |阅读模式
许多站长都有查看网站日志的习惯,这么做的主要目的就是为了分析蜘蛛爬行网站的情况,当然其中多数站长也只是简单的了解一下当天蜘蛛爬行的次数,这一点就足够发现问题了。有时候,我们会觉得自己的网站已经相当完美了,而正常优化过程中,蜘蛛却对此不感冒,让人很是着急。
  L4 q( A# \% b+ A2 t$ a% X  了解原理就很容易理解,搜索引擎借助蜘蛛在互联网这张大网中搜寻“猎物”,它唯一所能依据的线索就是链接了,找到新的链接后,根据复杂的算法最终对网站进行排名,储存在数据库中。很多网站可能会因为网站结构混乱失去蜘蛛到访的机会,然而蜘蛛不访问网站的因素有很多,下面就和蘑菇街团购站长一起总结一下:
0 h# d" Y! l. V/ I2 d( O$ y; C  图片、flash等内容过多& w# ?. D% K5 I7 i5 I' F6 u* u5 D
  不得不说,搜索引擎发展到现在,已经比较的智能化了,去年google就推出了图片搜索功能,能够分析图片的色彩、像素比例而找到图片的出处。然而这项技术对于搜索引擎完全的识别图片中的信息还有不小的差距,而很多站长或是不懂得搜索引擎优化,或是考虑网站美观和内容丰富,往往会在页面中嵌入大量高清图片、flash,即使你的网站内容再好,蜘蛛也无法知道,只能绕道而行了。现在网络上有许多模拟蜘蛛抓取的工具,有类似情况的网站站长可以查询一下自己网站的信息,看看蜘蛛能够发现的信息和人眼看到的有多大差距。
) l$ L/ \7 J( R$ W1 ?  网站死链接过多4 ~5 W& J9 b# P  o; Z+ B5 L# a& F& k
  我们可以想象,蜘蛛兴高采烈的来到你的网站,开始逐个链接的搜寻,以为发现了一堆好的内容,然而却是一堆打不开的链接等着她,一次、两次、三次,每次来都是这种情况,所以她生气了,就再也不会访问你的页面了。大部分的网站都存在死链接,只要我们能够及时的发现并清除掉就没有问题了,你可以利用强大的xenu,也可以查看你的网站日志,发现返回404状态码的一律清除。
5 F# U; E& t1 J7 S! O  上图是用xenu扫描时的界面。www.pyltsq.com
1 \' W7 \% m3 ?/ D* y3 `  外链与nofollow
; }' L- @0 |9 z/ A& V8 b  之所以蜘蛛能够成功的找到并访问你的站点,是因为其他网站上存在你网站的链接。想要蜘蛛更频繁的光临,在建立外链时就应该考虑外链网站权重,收录数越大、PR值越高,快照更新越快的网站权重就越高。另外有些无良站长在做友情链接时,会有意设置nofollow,这样的外链在蜘蛛眼里形同虚设,如果你网站的外链有这种现象,请及时撤除。
( E. K7 h. {. O! u! H1 k  网站代码复杂" G9 d6 e; W3 j1 a) n2 i! X
  网站建设中,代码优化非常重要,冗长代码对网站无任何意义,而且还会影响打开速度和搜索引擎蜘蛛的判断。6 ^1 y. `4 }8 `; o
  网站逻辑结构复杂www.pyltsq.com' y0 d( @$ E( Z
  正确的网站逻辑结构应该是扁平状的树形结构,也就是说,蜘蛛通过首页访问,能够达到任何一个栏目页,通过栏目页又能达到任何一个内容页,这个次数应该被限定在3次以内(较大的网站可以多几层)。如果网站层次太多,网站权重又不够高,蜘蛛就没有兴趣去一层层的搜寻了。; ~7 P. p7 W$ k
  网站地图错误3 L6 ^& Z$ l' c* \) g  g2 B
  网站地图是搜索引擎全面认识网站的好工具,对于蜘蛛而言,网站地图就像花名册,好的网站地图能让蜘蛛很有指向性的访问网站中的任何页面。所以,我们在制作网站地图时就需要谨慎行事了。网络上也有很多制作网站地图的工具,为了确保万无一失,大家也可以作为访客进行访问来加以验证
* U. l2 ]: F6 Q/ x( j  A! p9 N$ v# R# u7 b3 C3 Y  v
回复

使用道具 举报

西万路小混混 发表于 2026-01-10 16:12:51 | 显示全部楼层
分析得很透彻,很多细节都说到点子上了~
回复 支持 反对

使用道具 举报

xblhair13033 发表于 2026-01-10 17:02:47 | 显示全部楼层
楼主太厉害了,整理得这么详细,必须支持
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-14 09:50 , Processed in 0.074767 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表