位置:成果数据库 > 期刊 > 期刊详情页
基于数据源依赖性的Deep Web数据融合方法
  • ISSN号:1000-1220
  • 期刊名称:《小型微型计算机系统》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州大学智能信息处理及应用研究所,江苏苏州215006
  • 相关基金:国家自然科学基金项目(60970015,61003054,61170020)资助;江苏省高校自然科学研究项目(10KJB520018)资助;苏州市科技支撑计划项目(SG201257)资助.
中文摘要:

在Deepweb数据挖掘中,不同数据源之间往往会出现数据冲突,如何解决冲突从而获得正确值(这一过程称为数据融合)是数据集成中的一个关键问题.提出一种考虑数据源之间依赖关系的数据融合方法.该方法利用贝叶斯分析确定数据源之间的依赖性,设计出检测依赖性和融合数据的迭代算法;并通过考虑数据源的准确度和属性值之间的相似性等条件扩展模型.使用该方法,对网上爬取的真实数据进行了实验,结果表明它能够显著提高数据融合的准确度,而且在大量数据源存在的情况下具有可扩展性.

英文摘要:

In Deep Web data mining, different sources can often provide conflicting data. It is important that data integration systems can resolve conflicts and obtain correct values, which is called data fusion. We propose an algorithm that considers dependence be- tween sources in data fusion. The algorithm uses Bayesian analysis to decide source dependence and iteratively detects dependence and fuses data. Moreover, we extend our model by considering accuracy of data sources and similarity between values. Our experiments on real data show that our algorithm can notably imorove accuracv of data fusion and is scalable when there is a large of data sources.

同期刊论文项目
期刊论文 49 会议论文 8 专利 6
期刊论文 37 会议论文 4 获奖 3 专利 3
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212