丫头@@ 发表于 2012-08-30 16:33:44

搜索引擎蜘蛛的战略剖析

一)搜索战略
  搜索战略普通有深度优先的搜索战略和广度优先的搜索战略两种。
  广度优先的搜索战略普通被以为是自觉的搜索。它是一种以搜索更多的网页为优先的一种贪心的搜索战略。只需有东西检索,它就抓取。它会先读取一个文档,保管下文档上的一切链接,然后读取一切这些链接文档,并依次停止下去。
  深度优先的搜索战略网络蜘蛛顺序剖析一个文档,并取出它的第一个链接所指的文档继续剖析,然后如此继续下去。这样的搜索战略到达了网站结构的剖析,以及页面链接深度剖析,从而传达网站信息。
  还有网络上说的算法,如Hash算法,遗传算法等都是基于搜索引擎中心技术,这些也可以去了解下,比如最新的熊猫算法,这也是基于搜索战略的一种新算法,谷歌对其曾经更新好几次了。
  (二)更新战略
  以网页变化的周期为依据,只对那些经常变化的网页做更新操作也是一些小型的搜索引擎常采用的方法。这也就是为什么站长会每个几周对网站页面内容的一个小更新,这是基于搜索引擎优化的技术。网络爬虫也经常采用集体更新的战略。它是以一般网页的变化频率来决议对网页的更新频率,这样一来基本上每个网页都会有一个独立的更新频率。http://www.86957776.cc/

青海肝病医院 发表于 2012-08-30 16:46:05

现在百度每天的收录都不稳定啊

∩菰_髑∩ 发表于 2012-08-30 17:25:03

顶一下,感谢分享。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

soolanet 发表于 2026-03-15 12:00:55

分析得很透彻,很多细节都说到点子上了~

yuruyi 发表于 2026-03-24 00:11:22

楼主太厉害了,整理得这么详细,必须支持
页: [1]
查看完整版本: 搜索引擎蜘蛛的战略剖析