虫虫首页| 资源下载| 资源专辑| 精品软件
登录| 注册

您现在的位置是:虫虫下载站 > 资源下载 > 技术资料 > 对基于MPN的相似重复记录识别算法的改进

对基于MPN的相似重复记录识别算法的改进

  • 资源大小:651 K
  • 上传时间: 2024-01-30
  • 上传用户:zhengtiantong
  • 资源积分:2 下载积分
  • 标      签: 排序

资 源 简 介

相似重复记录识别是数据清理中的一个关键问题。文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特

相 关 资 源

您 可 能 感 兴 趣 的