在XML数据集成中如何评价XML数据的质量非常重要。然而,国际上对于XML数据质量的评价方法的研究才刚刚开始。完整性约束在数据的质量保障和评价方面有着重要的作用,XML数据中的完整性约束挖掘仅仅在函数依赖及键挖掘方面有少量的尝试性研究报道,许多问题亟待研究。本项目将重点研究面向XML数据集成的键挖掘、函数依赖挖掘、包含依赖挖掘、不同数据源集成中的约束转换和比较、数据转换中的约束保持分析、集成数据上的约束获取、关系数据约束与XML数据约束比较等方面的理论、方法、算法,并最终获得XML数据集成中的约束挖掘、转换、比较的原型系统。在XML约束挖掘中需要比较树的路径,其算法的复杂度与涉及的路径数量呈指数级关系。拟采用本体方法获取无关路径,以减少完整性约束挖掘过程中所涉及的路径数量,同时,拟研究一种面向XML数据的模式频数挖掘方法来进一步减少完整性约束挖掘过程中所涉及的路径数量。
Data mining;XML;Integrity constraints;Data integration;Data quality
在数据集成中如何评价数据的质量非常重要。然而,国际上对于XML数据质量的评价方法的研究才刚刚开始。完整性约束在数据的质量保障和评价方面有着重要的作用。本项目重点研究包括XML数据集成中的完整性约束挖掘,主要包括XML数据中的键挖掘、XML数据中的频繁模式与关联规则挖掘、函数依赖挖掘、微分依赖挖掘。同时,还对数据转换中的约束保持、探测关系约束和XML约束之间的关系等方面进行了探索性研究。提出了基于哈希的函数依赖挖掘、基于推理的XML数据中键挖掘方法、发现近似微分依赖等一些有价值的算法,部分成果并已经发表在国际著名期刊或国际会议。