面向相似性数据的自适应世系管理关键技术研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

面向相似性数据的自适应世系管理关键技术研究

项目名称：面向相似性数据的自适应世系管理关键技术研究
项目类别：面上项目
批准号：60973018
申请代码：F020204
项目来源：国家自然科学基金
研究期限：2010-01-01-2012-12-31

项目负责人：杨晓春
负责人职称：教授
依托单位：东北大学
批准年度：2009

中文摘要：

数据产生、并随着时间推移而演变的整个过程称为数据世系或数据溯源。数据世系管理对于用户理解数据的产生过程、确保数据的可重现、避免重复操作、对原始数据进行恢复等起到十分重要的作用。伴随着数据量的爆炸式增长，数据来源变得分散而广泛，导致数据具有来源多样性、粒度不统一、表示不一致性等特点。这些特点体现在数据具有一定程度的相似性，针对这些相似性数据进行世系管理变得更加复杂，具有挑战性。现有的世系管理技术对数据的上述特点支持不够，不具有自适应能力。项目旨在揭示相似性数据在产生和传递过程中的内在联系，为实现更加适合实际应用的世系管理提供重要的依据。主要研究内容包括世系关系自适应抽取技术、世系关系的自动验证技术、动态存储管理技术、数据质量评价模型与相关算法研究。设计、实现和评价相关的算法, 争取在数据库理论和技术上取得一定的突破, 为今后的实际应用推广奠定坚实的基础。

中文主题词：数据起源；数据世系管理；近似数据匹配；数据库；查询处理

英文摘要：

data provenance；data lineage management；approximate data matching；database；query processing

英文主题词： data provenance；data lineage management；approximate data matching；database；query processing

结论摘要：

项目研究面向相似性数据的自适应世系管理关键技术。数据世系管理对于用户理解数据的产生、确保数据的可重现、避免重复操作、原始数据恢复等起到十分重要的作用。伴随着数据量的爆炸式增长，数据来源变得分散而广泛，导致数据具有来源多样性、粒度不统一、表示不一致性等特点。这些特点体现在数据具有一定程度的相似性，针对这些相似性数据进行世系管理变得更加复杂，具有挑战性。现有的世系管理技术对数据的上述特点支持不够，不具有自适应能力。项目揭示了相似性数据在产生和传递过程间的内在联系，为实现更加适合实际应用的世系管理提供重要的依据。主要研究目标及内容包括世系可表达性、世系自动抽取与验证技术、基于增量序列的世系存储技术、以及复杂世系查询技术。设计、实现和评价相关的算法, 在数据库理论和技术上取得了一定的突破, 为今后的实际应用推广奠定坚实的基础。针对上述目标进行了相关研究工作，在基于领域知识的相似性衡量、近似谓词的自动选取问题、基于不同数据粒度的双亲映射关系抽取、世系关系的完整性表示、世系关系的可靠性验证、世系关系的完备性验证、支持非统一数据粒度的存储结构、世系压缩技术、版本实例化技术、数据质量评估模型、概率世系关系的溯源算法、基于数据质量的排序算法、世系质量评测算法等方面取得了多项研究成果。在国际、国内学术会议和期刊发表论文28篇，其中SCI收录5篇，EI收录18篇，ISTP收录5篇。代表性研究成果发表在国际顶级数据库会议ACM SIGMOD 2013、VLDB 2012和ICDE 2013上。并开发了一个面向email处理的自适应世系管理系统EmailTracer。在项目实施过程中，培养博士生1名，硕士生14名，本科生6名。主办国际会议workshop 3次，特邀报告3次，先后派22人次境外访学、国际交流或参加国际会议，邀请海内外专家学者15人次前来讲学。获得2次国际会议优秀论文，获得美国发明专利一项，申请中国发明专利一项。

成果综合统计