位置:成果数据库 > 期刊 > 期刊详情页
基于熵特征优选分组聚类的相似重复记录检测
  • ISSN号:1000-9787
  • 期刊名称:《传感器与微系统》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]桂林电子科技大学电子工程与自动化学院,广西桂林541004, [2]桂林电子科技大学计算机科学与工程学院,广西桂林541004
  • 相关基金:国家自然科学基金资助项目(60964001);广西自然科学基金资助项目(09910192);广西信息与通讯实验室主任基金资助项目(01902)
中文摘要:

针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法。该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用DBSCAN聚类算法进行相似重复记录的检测。理论分析和实验结果表明:该方法识别精度和检测效率较高。

英文摘要:

At present, the approximately duplicate records of massive data can not be detected effectively by current methods, an algorithm based on entropy feature selection grouping clustering ( FSGC ) is proposed. The basic idea is that through constructing an entropy metric based on similarity between objects, the importance of each property can be evaluated and a key property subset can be obtained, According to the key property to split the data sets into small data sets, the approximately duplicated records are identified based on the algorithm of density-based spatial of applications with noise (DBSCAN). The theory analysis and experimental results show that identification precision and detection efficiency of the method are high and it can effectively solve the problems of identification in approximately duplicate records of the massive data set.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《传感器与微系统》
  • 北大核心期刊(2011版)
  • 主管单位:中国电子科技集团公司
  • 主办单位:中国电子科技集团公司第四十九研究所
  • 主编:吴亚林
  • 地址:哈尔滨市南岗区一曼街29号四十九所
  • 邮编:150001
  • 邮箱:st_chinasensor@126.com
  • 电话:0451-82510965
  • 国际标准刊号:ISSN:1000-9787
  • 国内统一刊号:ISSN:23-1537/TN
  • 邮发代号:14-203
  • 获奖情况:
  • 获全国优秀科技期刊三等奖,获1996年度黑龙江省科技期刊评比,优秀科技期刊壹等奖,获《CAJ-CD》执行优秀奖,获信息产业部2001-2002年度电子科技期刊规范化奖,获信息产业部2003-2004年度优秀电子科技期刊奖,获信息产业部2005-2006年度优秀电子科技期刊奖,获工业和信息化部2007-2008年度电子精品科技期刊奖
  • 国内外数据库收录:
  • 中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版)
  • 被引量:10819