数据产生、并随着时间推移而演变的整个过程称为数据世系或数据溯源。数据世系管理对于用户理解数据的产生过程、确保数据的可重现、避免重复操作、对原始数据进行恢复等起到十分重要的作用。伴随着数据量的爆炸式增长,数据来源变得分散而广泛,导致数据具有来源多样性、粒度不统一、表示不一致性等特点。这些特点体现在数据具有一定程度的相似性,针对这些相似性数据进行世系管理变得更加复杂,具有挑战性。现有的世系管理技术对数据的上述特点支持不够,不具有自适应能力。项目旨在揭示相似性数据在产生和传递过程中的内在联系,为实现更加适合实际应用的世系管理提供重要的依据。主要研究内容包括世系关系自适应抽取技术、世系关系的自动验证技术、动态存储管理技术、数据质量评价模型与相关算法研究。设计、实现和评价相关的算法, 争取在数据库理论和技术上取得一定的突破, 为今后的实际应用推广奠定坚实的基础。
data provenance;data lineage management;approximate data matching;database;query processing
项目研究面向相似性数据的自适应世系管理关键技术。数据世系管理对于用户理解数据的产生、确保数据的可重现、避免重复操作、原始数据恢复等起到十分重要的作用。伴随着数据量的爆炸式增长,数据来源变得分散而广泛,导致数据具有来源多样性、粒度不统一、表示不一致性等特点。这些特点体现在数据具有一定程度的相似性,针对这些相似性数据进行世系管理变得更加复杂,具有挑战性。现有的世系管理技术对数据的上述特点支持不够,不具有自适应能力。项目揭示了相似性数据在产生和传递过程间的内在联系,为实现更加适合实际应用的世系管理提供重要的依据。主要研究目标及内容包括世系可表达性、世系自动抽取与验证技术、基于增量序列的世系存储技术、以及复杂世系查询技术。 设计、实现和评价相关的算法, 在数据库理论和技术上取得了一定的突破, 为今后的实际应用推广奠定坚实的基础。 针对上述目标进行了相关研究工作,在基于领域知识的相似性衡量、近似谓词的自动选取问题、基于不同数据粒度的双亲映射关系抽取、世系关系的完整性表示、世系关系的可靠性验证、世系关系的完备性验证、支持非统一数据粒度的存储结构、世系压缩技术、版本实例化技术、数据质量评估模型、概率世系关系的溯源算法、基于数据质量的排序算法、世系质量评测算法等方面取得了多项研究成果。在国际、国内学术会议和期刊发表论文28篇,其中SCI收录5篇,EI收录18篇,ISTP收录5篇。代表性研究成果发表在国际顶级数据库会议ACM SIGMOD 2013、VLDB 2012和ICDE 2013上。并开发了一个面向email处理的自适应世系管理系统EmailTracer。在项目实施过程中,培养博士生1名,硕士生14名,本科生6名。主办国际会议workshop 3次,特邀报告3次,先后派22人次境外访学、国际交流或参加国际会议,邀请海内外专家学者15人次前来讲学。获得2次国际会议优秀论文,获得美国发明专利一项,申请中国发明专利一项。