找回密码
 加入怎通
查看: 440|回复: 2

[站长八卦] 爬虫质量的评价标准

[复制链接]
我是三毛啊 发表于 2013-03-08 14:25:42 | 显示全部楼层 |阅读模式
  如何从搜索引擎用户体验的角度考虑,对爬虫的工作效果有不同的评价标准,其中最主要的3个标准是:抓取网页覆盖率、抓取网页时新性及抓取网页重要性。
4 K2 u1 P" c# N1 Z; e% h3 q, B5 Q. R4 n4 a1 L
  对于爬虫抓到本地的网页来说,很多网页可能已经发生变化,或者被删除,或者内容被更改,因为爬虫完整抓取一轮需要较长的时间周期,所以抓取到的网页中必有一部分是过期的数据,即不能在网页变化后第一时间反映到网页库中,所以网页库中过期的数据越少,则网页时新性越好,这对用户体验的作用不言而喻。如果时新性不好,用户搜到的是过时数据,甚至可能网页都已经不复存在,使用产品时其心情可想而知。
/ v1 y( D, p2 u- A1 D% ^8 }4 N& y/ l- z
  互联网尽管网页众多,但是每个网页重要性差异很大,比如来自雅虎新闻的网页和某个作弊网页相比,其重要性差异判若云泥。如果搜索引擎爬虫抓回的网页大都是比较重要的网页,即可说其在抓取网页重要性方面做得很好。这方面做得好,等价于搜索引擎的精度高。
) X, I" C( {" s# M5 M% T
- i& A# \  n5 w3 `1 G9 e' @' \  北京seo公司   www.dingjiseo.com' e& |- I9 F( a* Q# W0 O9 y! j
回复

使用道具 举报

追风追雨追太阳 发表于 2025-11-09 15:16:21 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

炫舞の人生 发表于 2025-11-10 20:04:07 | 显示全部楼层
刚好遇到类似问题,看完这个帖子心里有底了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-13 13:58 , Processed in 0.095133 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表