【数据时代】搜索引擎收录网页的四个阶段

q851031360 · 发表于 2013-08-06 11:30:26

网页收录第一阶段：大小通吃

搜索引擎的网页抓取都是采取大小通吃的策略，也就是把网页中能发现的链接逐一加入到待抓取URL中，机械性的将新抓取的网页中的URL提取出来，这种方式虽然比较古老，但效果很好，这就是为什么很多站长反应蜘蛛来访问了，但没有收录的原因，这仅仅是第一阶段。

网页收录第二阶段：网页评级

而第二阶段则是对网页的重要性进行评级，PageRank是一种著名的链接分析算法，可以用来衡量网页的重要性，很自然的，站长可以用PageRank的思路来对URL进行排序，这就是发外链的一种形式，据一位朋友了解，在中国发外链这个市场每年有上亿元的规模。

蜘蛛爬虫的目的就是去下载网页，但PageRank是个全局性算法，也就是当所有网页有下载完成后，其计算结果才是可靠的。对于中小网站来讲，服务器如果质量不好，如果在抓取过程中，只看到部分内容，在抓取阶段是无法获得可靠的PageRank得分。

网页收录第三阶段：OCIP策略

OCIP策略更像是PageRank算法的改进。在算法开始之前，每个网页都给予相同的现金，每当下载某个页面A后，A将自己的现金平均分给页面中包含的链接页面，把自己的现金清空。这就是为什么导出的链接越少，权重会越高的原因之一。

而对于待抓取的网页，会根据手头拥有的现金多少排序，优先下载现金最充裕的网页，OCIP大致与PageRank思路一致，区别在于：PageRank每次要迭代计算，而OCIP则不需要，所以计算速度远远快于PageRank，适合实时计算使用。这可能就是为什么很多网页会出现秒收的情况了。

网页收录第四阶段：大站优先策略

大站优先的思路很直接，以网站为单位来衡量网页的重要性，对于待抓取的URL队列中的网页，根据所述网站归类，如果哪个网站等待下载的页面最多，则优先下载这些链接。其本质思想是倾向于优先下载大型网站URL。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站，其网页质量一般较高，所以这个思路虽然简单，但有一定依据。

实验表明这个算法虽然简单，但却能收录高质量网页，很有效果。这也是为什么许多网站的内容被转载后，大站却能排到你前面的最重要原因之一。

本文来自: 数据时代(www.sjera.com) 倩倩分享，详细出处参考：http://www.sjera.com/webopt/opt_art860.html

樱桃丸子 · 发表于 2026-03-17 00:44:05

刚好遇到类似问题，看完这个帖子心里有底了

		自动登录	找回密码
密码			加入怎通

[站长八卦] 【数据时代】搜索引擎收录网页的四个阶段