位置:立项数据库 > 立项详情页
聚集类型数据存储和查询技术的研究
  • 项目名称:聚集类型数据存储和查询技术的研究
  • 项目类别:青年科学基金项目
  • 批准号:60303008
  • 申请代码:F020204
  • 项目来源:国家自然科学基金
  • 研究期限:2004-01-01-2006-12-31
  • 项目负责人:汪卫
  • 负责人职称:教授
  • 依托单位:复旦大学
  • 批准年度:2003
中文摘要:

随着计算机应用的日趋深入,计算机所管理的数据正从原子型的数据转换到聚集类型的数据(集合、序列、树、图),如大量的DNA序列、XML文本、分子结构数据等。但这类数据结构复杂,包含大量的语义信息,缺乏有效的存储和访问的方法,特别是高效的索引结构。本项目的总体思路是利用频繁模式生成技术产生数据的语义特征,并通过对语义特征的有效组织建立相应的索引结构,以索引结构为基础研究相应的查询和分析方法。围绕这个思路,本项目的研究内容包括1、集合数据的索引结构前缀树,基于块的前缀树的存储结构和相关查询算法,以及在XML数据存储系统中的应用。2、基于精确和模糊频繁模式的长序列数据的索引结构,及相关的精确和模糊的查询方法,并以此为基础的新的BLAST算法。3、基于频繁模式的图和树数据的组织方法,包括两种数据的频繁模式发现方法,基于聚类的图数据的索引结构,基于新的索引结构的图和树类型数据的查询和分析。

结论摘要:

随着计算机应用的日趋深入,计算机所管理的数据正从原子型的数据转换到聚集类型的数据(集合、序列、树、图),如大量的DNA序列、XML文本、分子结构数据等。但这类数据结构复杂,包含大量的语义信息,缺乏有效的存储和访问的方法,特别是高效的索引结构。本项目的总体思路是利用频繁模式生成技术产生数据的语义特征,并通过对语义特征的有效组织建立相应的索引结构,以索引结构为基础研究相应的查询和分析方法。围绕这个思路,本项目的研究内容包括1、集合索引结构Set_tree以及基于Set_tree的集合数据选择和连接操作算法;2、针对生物数据管理的序列数据挖掘算法(最大模式挖掘和带约束的挖掘)和索引结构;3、大规模树结构数据的频繁模式挖掘算法;4、图的数据的索引结构ADI和具有高可扩展性的基于ADI频繁模式挖掘;5、基于ADI索引的高效图数据的查询技术;6、基于序列挖掘技术的大规模生物序列拼接系统。通过研究在顶级学术会议SIGKDD上发表论文,并在JCST、软件学报、计算机研究与发展、PAKDD等学术刊物和学术会议上发表论文30余篇。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 26
  • 14
  • 0
  • 0
  • 0
相关项目
期刊论文 62 会议论文 11 获奖 4 著作 1
期刊论文 17 会议论文 5 专利 2
期刊论文 17 会议论文 7
期刊论文 8 会议论文 14 专利 3
期刊论文 31 会议论文 16 著作 1
汪卫的项目