位置:成果数据库 > 期刊 > 期刊详情页
分布式大数据多函数依赖冲突检测
  • ISSN号:0254-4164
  • 期刊名称:《计算机学报》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:西北工业大学计算机学院,西安710072
  • 相关基金:国家“九七三”重点基础研究发展规划项目基金(2012CB316203); 国家自然科学基金(61502390,61472321,61332006,61272121); 国家“八六三”高技术研究发展计划项目基金(2015AA015307)资助
中文摘要:

关系数据库数据质量的一个主要问题是存在数据不一致现象.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,而分布式环境下的函数依赖冲突检测更富有挑战性,特别是大数据背景下,这个问题尤为突出.分布式环境下的函数依赖冲突检测通常需要进行数据迁移,而且不同的数据迁移方法会对检测效率产生一定的影响.该文提出了一种基于等价类的分布式环境多个函数依赖冲突检测的方法,给出了冲突检测的响应时间代价模型.由于分布式环境函数依赖冲突检测问题的任务分配问题为NP-难问题,多项式时间内难以得到最优解,该文将不一致性检测响应时间最小化问题转化为整数规划问题,并给出了近似最优解.针对集群规模和函数依赖个数大小不同的情况,分别给出了不同的任务分配策略,并在检测过程中实现了动态负载均衡,有效提高了负载均衡度和检测效率.在真实和人工数据集上的实验表明,相对于集中式检测方法以及基于Hadoop的naive方法,该文提出的多函数依赖冲突检测方法检测效率有明显的提升,且在数据规模、节点个数和函数依赖个数等方面扩展性能良好.

英文摘要:

One major problem of data quality in relational database is data inconsistency.To find out the inconsistent data in the relational database,we need to detect the functional dependency violations.It is easy to detect dependency violations in centralized databases via SQL-based techniques.However,it is far more challenging to check dependency violations in distributed databases,especially with big data.It is usually necessary to ship data from one site to another when detecting functional dependency violations from distributed data.Moreover,different data migration methods may have different impact on the detection efficiency.This paper proposes a novel equivalence class based multiple functional dependency violations detection approach in distributed big data,and provides a cost model of violations detection.Considering that the inconsistency detection problem is NP-hard,it is impossible to find an optimal solution in polynomial time,so we transform the problem of minimizing response time of inconsistency detection into an integer programming problem and provide an optimal solution for the allocation of detecting tasks.Against difference of cluster size and the number of functional dependencies,we propose different tasks allocation strategies,and achieve dynamic load balancing in the detection process,which can improve the detection efficiency and load balancing degree effectively.Experiments onreal-world and generated datasets demonstrate that compared with previous detection methods and nave method based on Hadoop platform,our approach is more effective in efficiency and with good scalability on the number of nodes,on the size of datasets and on the number of functional dependencies.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433