找回密码
 加入怎通
查看: 287|回复: 1

[站长八卦] 抓取页面之宽度优先抓取策略

[复制链接]
朱岩 发表于 2013-01-09 16:43:30 | 显示全部楼层 |阅读模式
搜索引擎看似简单的抓取-入库-查询工作,但其中各个环节暗含的算法却十分复杂。搜索引擎抓取页面工作靠蜘蛛(Spider)来完成,抓取动作很容易实现,但是抓取哪些页面,优先抓取哪些页面却需要算法来决定,下面介绍宽度优先抓取策略。
: S. r0 v7 l; \* A" o  我们都知道,大部分网站都是按照树状图来完成页面分布的,那么在一个树状图的链接结构中,哪些页面会被优先抓取呢?为什么要优先抓取这些页面呢?宽度优先抓取策略就是按照树状图结构,优先抓取同级链接,待同级链接抓取完成后,再抓取下一级链接。如下图:- V& g: Q. ]( W" [9 O/ V: |
  大家可以发现,我在表述的时候,使用的是链接结构而不是网站结构。这里的链接结构可以由任何页面的链接构成,并不一定是网站内部链接。这是一种理想化的宽度优先抓取策略,在实际的抓取过程中,不可能想这样完全宽度优先,而是有限宽度优先。7 R" w5 X: b) ]) N$ Y( Q
  
. w1 N( s, @# O$ k+ K- n/ ~  我们的Spider在取回G链接时,通过算法发现,G页面没有任何价值,所以悲剧的G链接以及下级H链接被Spider给和谐了。9 a  y; U! M! ^$ a2 y  U
【本文是由淮安仁爱:http://www.harayy.com为大家分享】
$ A: Y7 [% a  V$ V7 r5 ~7 u+ |) g
回复

使用道具 举报

ssll2008 发表于 2026-03-03 11:24:57 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 加入怎通

本版积分规则

QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

GMT+8, 2026-3-16 12:39 , Processed in 0.065142 second(s), 24 queries , Gzip On.

免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

Powered by Discuz! X3.5

快速回复 返回顶部 返回列表