位置:成果数据库 > 期刊 > 期刊详情页
面向Web数据集成的真值发现算法
  • ISSN号:1000-1220
  • 期刊名称:《小型微型计算机系统》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:东北大学信息科学与工程学院,沈阳110819
  • 相关基金:国家“九七三”重点基础研究计划项目(2012CB316201)资助;国家自然科学基金面上项目(61033007,61472070)资助.
中文摘要:

在Web数据集成中,常出现多个数据源对同一实体对象的描述存在冲突.解决冲突,发现真值有助于提高数据集成质量或构建高质量的知识库等.已有的解决单真值数据冲突的方法存在数据源评价指标不充分,无法区分数据源的数据缺失和假真,以及无法处理数据源间传递复制、共同复制等高阶复制的局限性.因此,本文采用召回率和假真率度量数据源质量,提出能处理数据源间复杂数据复制的真值发现算法.三个真实数据集和人工数据集上的实验结果表明,本文算法能有效降低错误数据复制带来的真值计算偏差,提高真值发现的准确率.

英文摘要:

In many web integration applications, some sources usually depict the same entity object with different descriptions, which leads to data conflicts. Resolving conflicts and finding truth can be used to improve the quality of integration or to build a high-quality knowledge base, etc. In the single-truth data conflicting scenario, existing methods have limitations to distinguish false negative and false positive. Their source quality measurements are inadequate. Moreover, existing methods can't capture the high order copying relationships among data sources such as transitive copying and co-copying. Therefore, in this paper, we use recall and false positive rate to measure source quality. Meanwhile, we propose a method to capture the complex data copying among sources in truth discovery. The experimental results on three real-word data sets and synthetic data sets show that the proposed algorithms can effectively reduce the truth computation bias caused by error data copying and improve the precision of truth discovery.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212