位置:立项数据库 > 立项详情页
面向相似性数据的自适应世系管理关键技术研究
  • 项目名称:面向相似性数据的自适应世系管理关键技术研究
  • 项目类别:面上项目
  • 批准号:60973018
  • 申请代码:F020204
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2012-12-31
  • 项目负责人:杨晓春
  • 负责人职称:教授
  • 依托单位:东北大学
  • 批准年度:2009
中文摘要:

数据产生、并随着时间推移而演变的整个过程称为数据世系或数据溯源。数据世系管理对于用户理解数据的产生过程、确保数据的可重现、避免重复操作、对原始数据进行恢复等起到十分重要的作用。伴随着数据量的爆炸式增长,数据来源变得分散而广泛,导致数据具有来源多样性、粒度不统一、表示不一致性等特点。这些特点体现在数据具有一定程度的相似性,针对这些相似性数据进行世系管理变得更加复杂,具有挑战性。现有的世系管理技术对数据的上述特点支持不够,不具有自适应能力。项目旨在揭示相似性数据在产生和传递过程中的内在联系,为实现更加适合实际应用的世系管理提供重要的依据。主要研究内容包括世系关系自适应抽取技术、世系关系的自动验证技术、动态存储管理技术、数据质量评价模型与相关算法研究。设计、实现和评价相关的算法, 争取在数据库理论和技术上取得一定的突破, 为今后的实际应用推广奠定坚实的基础。

结论摘要:

项目研究面向相似性数据的自适应世系管理关键技术。数据世系管理对于用户理解数据的产生、确保数据的可重现、避免重复操作、原始数据恢复等起到十分重要的作用。伴随着数据量的爆炸式增长,数据来源变得分散而广泛,导致数据具有来源多样性、粒度不统一、表示不一致性等特点。这些特点体现在数据具有一定程度的相似性,针对这些相似性数据进行世系管理变得更加复杂,具有挑战性。现有的世系管理技术对数据的上述特点支持不够,不具有自适应能力。项目揭示了相似性数据在产生和传递过程间的内在联系,为实现更加适合实际应用的世系管理提供重要的依据。主要研究目标及内容包括世系可表达性、世系自动抽取与验证技术、基于增量序列的世系存储技术、以及复杂世系查询技术。 设计、实现和评价相关的算法, 在数据库理论和技术上取得了一定的突破, 为今后的实际应用推广奠定坚实的基础。 针对上述目标进行了相关研究工作,在基于领域知识的相似性衡量、近似谓词的自动选取问题、基于不同数据粒度的双亲映射关系抽取、世系关系的完整性表示、世系关系的可靠性验证、世系关系的完备性验证、支持非统一数据粒度的存储结构、世系压缩技术、版本实例化技术、数据质量评估模型、概率世系关系的溯源算法、基于数据质量的排序算法、世系质量评测算法等方面取得了多项研究成果。在国际、国内学术会议和期刊发表论文28篇,其中SCI收录5篇,EI收录18篇,ISTP收录5篇。代表性研究成果发表在国际顶级数据库会议ACM SIGMOD 2013、VLDB 2012和ICDE 2013上。并开发了一个面向email处理的自适应世系管理系统EmailTracer。在项目实施过程中,培养博士生1名,硕士生14名,本科生6名。主办国际会议workshop 3次,特邀报告3次,先后派22人次境外访学、国际交流或参加国际会议,邀请海内外专家学者15人次前来讲学。获得2次国际会议优秀论文,获得美国发明专利一项,申请中国发明专利一项。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 20
  • 11
  • 1
  • 0
  • 0
相关项目
期刊论文 8 会议论文 17
期刊论文 37 会议论文 12
期刊论文 5 会议论文 2 获奖 3 著作 2
杨晓春的项目
期刊论文 10