面对大规模、复杂的数据,主要针对异构数据的传统数据集成技术已经无法适应当前商业智能等应用在实时性和质量上的需求。近年来,Pay-as-you-go策略被应用于数据集成之中,过程是开始只利用少量已知的模式映射提供基本的功能,这些模式映射将根据用户的需求在应用中不断地加强和完善。Pay-as-you-go正在成为数据集成应用的主要方式,而其中在模式映射演化、查询处理和不确定性等方面具有很多新的特点,出现许多的新问题,也面临许多新的挑战。本课题研究基于Pay-as-you-go策略的数据集成关键技术,通过对数据特征的分析,设计合理的数据模型和查询模型,在此基础上研究模式映射关系自动生成、模式映射动态演化和动态划分、针对数据演化的查询重写和查询处理技术、以及对应的数据质量控制等关键技术,建立原型系统测试并验证其中算法的性能和正确性。该研究成果将为实时的数据集成技术提供支持,推动数据管理技术的发展。
data integration;Pay-as-you-go;schema mapping;data quality;data evolution
当前科学技术的高速发展使得数据具有海量性、多样性和高速增长性等特征,为此研究者们提出了大数据的概念以对数据管理所面临的问题进行总结。面对大数据的数据集成问题,主要针对异构数据的传统数据集成技术已经无法适应当前商业智能等应用在实时性和质量上的需求。本课题针对大数据的集成问题,开展了基于Pay-as-you-go 策略的数据集成关键技术的研究工作。本课题将Pay-as-you-go的思想应用于数据集成管理之中,基于已知的模式映射提供集成服务,同时根据应用需求不断地加强和完善集成结果,以解决在模式映射演化、查询处理和不确定性等方面的问题与挑战。本课题首先对多种应用领域的数据特征进行分析,设计了合理的数据模型和查询模型,在此基础上研究了模式映射关系自动生成、模式映射动态演化和动态划分、针对数据演化的查询重写和查询处理技术、以及对应的数据质量管理等关键技术,并进一步基于Hadoop平台开发了面向海量数据的数据集成原型系统VEER,对本课题提出的算法和理论进行正确性与性能验证。本课题申请发明专利2项,在国际、国内学术会议和期刊发表论文32篇,被三大检索收录26篇次,已毕业1名博士研究生和8名硕士研究生,邀请2名国内外学者来校讲学,派26人次参加了国内外学术会议,2人以访问学者身份出国交流。