找回密码
 加入怎通
查看: 705|回复: 1

[交流] 常规爬虫机制不同的系统

[复制链接]
szsxbj 发表于 2012-09-05 11:20:59 | 显示全部楼层 |阅读模式
用户在搜索时便可以利用这些数据,增加信息覆盖程度。对于暗网爬虫来说,一个简单粗暴的方式是:将各个输入框肯呢过的输入值组合起来形成查询,比如机票查询来说,将所有出发城市、所有目的城市和时间范围的选项一一组合,形成大量的查询,提交给垂直搜索引擎,从其搜索结果里提炼数据库记录。GOOGLE对此提出了解决方案,称之为富含信息查询模块技术。为了描述一个职位,完整的查询由3个不同的属性构成:出发城市、到达城市和出发日期。如果在搜索引擎提交查询的时候,部分属性被赋予了值,而其他属性不赋值,则这几个赋值属性一起构成了一个查询模块。对于某个固定的查询模块来说,如果给模块内每个属性都赋值,形成不同的查询组合,提交给垂直搜索引擎,观察所有返回页面的内容,如果相互之间内容差异较大,则这个查询模块就是富含信息查询模块。但是这将是一个庞大的查询组合基数,为了进一步减少提交的查询数目。GOOGLE的方案使用了ISIT算法。ISIT算法的基本思路是:首先从一维模块开始,对一维查询模块逐个查询,看其是否富含信息查询模块,如果是的话,则将这个一模模块扩展到二维,再次依次查询对应的二维模块,如此类推,逐步增加维数,直到再无法找到富含信息查询模块为止。通过这种方式,就可以找到绝大多数富含信息查询模块,同时也尽可能减少了查询总数,有效达到了目的。转载请注明出处http://www.kzjzfzx.com
回复

使用道具 举报

angellucylove 发表于 2025-11-11 07:42:25 | 显示全部楼层
刚好遇到类似问题,看完这个帖子心里有底了
回复 支持 反对

使用道具 举报

2025年控制台五大源头厂家排行,这些品牌值得关注
行业概览 随着数字化转型进程加速,控制台作为指挥中心、监控中心等关键场所的核心设备,其市场需求持续增长。源头厂家凭借完整产业链、技术积累与成本优势,在市场竞争中展现出强劲实力。本文基于市场调研与公开数据,从企业实力、技术能力、产品质量、客户案例等维度,对控制台源头厂家进行客观分析

您需要登录后才可以回帖 登录 | 加入怎通

本版积分规则

QQ|网站地图|真牛站长论坛 ( 苏ICP备2023040716号-2 )

GMT+8, 2025-11-28 06:58

免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

Powered by Discuz! X3.5

快速回复 返回顶部 返回列表