一个经典的页面数据采集工具RoadRunner.其关键思想是通过处理页面比较得到的mismatch来不断地修改当前的模板,最终推导出能够覆盖例子页面的模板,然后根据模板来实现对类似 页面的信息抽取。
标签: RoadRunner mismatch 页 数据采集
上传时间: 2016-06-16
上传用户:wangchong