东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

分布式大数据多函数依赖冲突检测

ISSN号：0254-4164
期刊名称：《计算机学报》
时间：0
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：西北工业大学计算机学院,西安710072
相关基金：国家“九七三”重点基础研究发展规划项目基金（2012CB316203）; 国家自然科学基金（61502390,61472321,61332006,61272121）; 国家“八六三”高技术研究发展计划项目基金（2015AA015307）资助

关键词：函数依赖, 冲突检测, 不一致性, 分布式数据, 大数据, functional dependency, violations detection, inconsistency, distributed data, big data

中文摘要：

关系数据库数据质量的一个主要问题是存在数据不一致现象.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,而分布式环境下的函数依赖冲突检测更富有挑战性,特别是大数据背景下,这个问题尤为突出.分布式环境下的函数依赖冲突检测通常需要进行数据迁移,而且不同的数据迁移方法会对检测效率产生一定的影响.该文提出了一种基于等价类的分布式环境多个函数依赖冲突检测的方法,给出了冲突检测的响应时间代价模型.由于分布式环境函数依赖冲突检测问题的任务分配问题为NP-难问题,多项式时间内难以得到最优解,该文将不一致性检测响应时间最小化问题转化为整数规划问题,并给出了近似最优解.针对集群规模和函数依赖个数大小不同的情况,分别给出了不同的任务分配策略,并在检测过程中实现了动态负载均衡,有效提高了负载均衡度和检测效率.在真实和人工数据集上的实验表明,相对于集中式检测方法以及基于Hadoop的naive方法,该文提出的多函数依赖冲突检测方法检测效率有明显的提升,且在数据规模、节点个数和函数依赖个数等方面扩展性能良好.

英文摘要：

One major problem of data quality in relational database is data inconsistency.To find out the inconsistent data in the relational database,we need to detect the functional dependency violations.It is easy to detect dependency violations in centralized databases via SQL-based techniques.However,it is far more challenging to check dependency violations in distributed databases,especially with big data.It is usually necessary to ship data from one site to another when detecting functional dependency violations from distributed data.Moreover,different data migration methods may have different impact on the detection efficiency.This paper proposes a novel equivalence class based multiple functional dependency violations detection approach in distributed big data,and provides a cost model of violations detection.Considering that the inconsistency detection problem is NP-hard,it is impossible to find an optimal solution in polynomial time,so we transform the problem of minimizing response time of inconsistency detection into an integer programming problem and provide an optimal solution for the allocation of detecting tasks.Against difference of cluster size and the number of functional dependencies,we propose different tasks allocation strategies,and achieve dynamic load balancing in the detection process,which can improve the detection efficiency and load balancing degree effectively.Experiments onreal-world and generated datasets demonstrate that compared with previous detection methods and nave method based on Hadoop platform,our approach is more effective in efficiency and with good scalability on the number of nodes,on the size of datasets and on the number of functional dependencies.

同期刊论文项目

集群环境下基于内存的高性能数据管理与分析

期刊论文 39

挖掘蛋白质网络动态特征的方法研究

期刊论文 4

混合存储和计算模式下的大图处理优化技术研究

期刊论文 11

基于WEB信息的信息错误自动检测与修复技术研究

期刊论文 7

同项目期刊论文

Threshold-Based Shortest Path Query over Large Correlated Uncertain Graphs

Continuous Outlier Monitoring on Uncertain Data Streams

数据库性能测试可视化工具VisualDBBench及面向内存数据库的应用

基于增量式分区策略的MapReduce数据均衡方法

大数据环境下并行计算模型的研究进展

内存数据库的可用性综述

Constrained query of order-preserving submatrix in gene expression data

PCPIR-V：基于Spark的并行隐私保护近邻查询算法

集群数据库系统的日志复制和故障恢复

基于上下文感知实体排序的缺失数据修复方法

高可用数据库系统中的分布式一致性协议

内存数据库事务提交的关键技术与挑战

分布式内存数据库系统的容错管理

分布式系统中Semi-Join算法的实现

分布式可扩展数据流连接算法

GraphHP：一个图迭代处理的混合平台

基于Map/Reduce的分布式数据排序算法分析

非阻塞事务型实时数据注入技术研究与实现

面向OceanBase的存储过程设计与实现

DBugHelper：分布式系统Debug协助工具

基于Raft一致性协议的高可用性实现

集群资源统一管理和调度技术综述

面向内存计算的连接算法

内存数据索引：以处理器为核心的性能优化技术

大规模分布并行计算系统容错与恢复技术

内存集群计算：交互式数据分析

LCDJ：面向内存集群计算的局部感知连接算法

图像内部Move-Copy篡改盲取证算法研究

基于改进的Adaboost算法在网络入侵检测中的应用

分布式数据流上的高性能分发策略

新型非易失存储环境下事务型数据管理技术研究

分布式大数据不一致性检测

基于可能世界模型的关系数据不一致性的修复

基于卷积神经网络的网络流量识别技术研究

关系数据中函数依赖检测方法

一种基于离群点检测的自动实体匹配方法

基于隐马尔可夫模型和遗传算法的地图匹配算法

一种基于Spark的多路空间连接查询处理算法

Constrained query of order-preserving submatrix in gene expression data

GraphHP：一个图迭代处理的混合平台

分布式大数据不一致性检测

基于可能世界模型的关系数据不一致性的修复

一种基于离群点检测的自动实体匹配方法

基于Web信息的关系型信息错误自动检测与修复技术研究综述

Constrained query of order-preserving submatrix in gene expression data

面向时序基因表达数据的双聚类算法

基于离散时序基因表达数据的双聚类算法

基于增量式分区策略的MapReduce数据均衡方法

Constrained query of order-preserving submatrix in gene expression data

基于上下文感知实体排序的缺失数据修复方法

GraphHP：一个图迭代处理的混合平台

新型非易失存储环境下事务型数据管理技术研究

分布式大数据不一致性检测

基于可能世界模型的关系数据不一致性的修复

关系数据中函数依赖检测方法

一种基于离群点检测的自动实体匹配方法

基于Web信息的关系型信息错误自动检测与修复技术研究综述

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433