位置:成果数据库 > 期刊 > 期刊详情页
异构数据联合式的真值发现算法
  • ISSN号:1005-3026
  • 期刊名称:《东北大学学报:自然科学版》
  • 时间:0
  • 分类:TP301[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]东北大学计算机科学与工程学院,辽宁沈阳110169, [2]渤海大学信息科学与技术学院,辽宁锦州121007
  • 相关基金:国家重点基础研究发展计划项目(2012CB316201);国家自然科学基金资助项目(61033007,61472070).
中文摘要:

互联网上提供的同一事实的信息通常会存在冲突,影响数据集成和知识发现.为了甄别真值,提 出了一种基于距离的异构数据联合真值发现算法.首先,关于同一数据项,基于数据源声明值与真值的距离, 计算数据项向量;采用KMeans聚类算法,获得数据项初始聚类.然后,迭代进行信任分析和聚类,即在每个类 簇内,采用最优化思想,联合异构类型数据,更新事实的可信度和数据源的类簇内可靠性,重新计算每个数据 项向量,再次聚类,迭代直至类簇达到稳定.实验结果表明:由于细粒度的数据源质量划分,联合考虑异构数据 类型,可以获得更髙的真值发现准确度.

英文摘要:

The value of an entity attribute on the web is usually provided by multiple data sources, but the values provided by them are not always the same,which affects the effective integration of data,so it is necessary to find out the true value among these given values. The existing truth finder algorithms mainly focus on the single type data kind, so a distance-based truth finding algorithm was proposed by considering heterogeneous data jointly. Firstly,for a specific data item, the data item vectors were calculated on the basis of the distance between the claimed value from every source and the truth value. The KMeans algorithm was used to get initial clustering. Then, alternate clustering and trust analysis were iteratively performed, i. e.,within each cluster, confidence of facts and trustworthiness of sources were updated with the idea of optimization and joint heterogeneous data. Each data item vector was recalculated and reclustered, and when each cluster was stable, the iteration would be terminated. The experiment results showed that the proposed algorithm has a higher accuracy for truth finding because of the fine grained partition of source quality and the joint model of heterogeneous data.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《东北大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:东北大学
  • 主编:汪晋宽
  • 地址:沈阳.南湖
  • 邮编:110819
  • 邮箱:
  • 电话:024-83687378
  • 国际标准刊号:ISSN:1005-3026
  • 国内统一刊号:ISSN:21-1344/T
  • 邮发代号:8-120
  • 获奖情况:
  • 全国优秀科技期刊二等奖,教育部优秀高校自然科学学报一等奖二次,获原冶金部科技期刊质量评比一等奖三次,中国期刊方阵“双百”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23296