聚集类型数据存储和查询技术的研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

聚集类型数据存储和查询技术的研究

项目名称：聚集类型数据存储和查询技术的研究
项目类别：青年科学基金项目
批准号：60303008
申请代码：F020204
项目来源：国家自然科学基金
研究期限：2004-01-01-2006-12-31

项目负责人：汪卫
负责人职称：教授
依托单位：复旦大学
批准年度：2003

中文摘要：

随着计算机应用的日趋深入，计算机所管理的数据正从原子型的数据转换到聚集类型的数据（集合、序列、树、图），如大量的DNA序列、XML文本、分子结构数据等。但这类数据结构复杂，包含大量的语义信息，缺乏有效的存储和访问的方法，特别是高效的索引结构。本项目的总体思路是利用频繁模式生成技术产生数据的语义特征，并通过对语义特征的有效组织建立相应的索引结构，以索引结构为基础研究相应的查询和分析方法。围绕这个思路，本项目的研究内容包括1、集合数据的索引结构前缀树，基于块的前缀树的存储结构和相关查询算法，以及在XML数据存储系统中的应用。2、基于精确和模糊频繁模式的长序列数据的索引结构，及相关的精确和模糊的查询方法，并以此为基础的新的BLAST算法。3、基于频繁模式的图和树数据的组织方法，包括两种数据的频繁模式发现方法，基于聚类的图数据的索引结构，基于新的索引结构的图和树类型数据的查询和分析。

中文主题词：聚集类型数据;索引结构;频繁模式;查询操作

英文摘要：

Aggrate data type; Index struc

英文主题词： Aggrate data type; Index struc

结论摘要：

随着计算机应用的日趋深入，计算机所管理的数据正从原子型的数据转换到聚集类型的数据（集合、序列、树、图），如大量的DNA序列、XML文本、分子结构数据等。但这类数据结构复杂，包含大量的语义信息，缺乏有效的存储和访问的方法，特别是高效的索引结构。本项目的总体思路是利用频繁模式生成技术产生数据的语义特征，并通过对语义特征的有效组织建立相应的索引结构，以索引结构为基础研究相应的查询和分析方法。围绕这个思路，本项目的研究内容包括1、集合索引结构Set_tree以及基于Set_tree的集合数据选择和连接操作算法；2、针对生物数据管理的序列数据挖掘算法（最大模式挖掘和带约束的挖掘）和索引结构；3、大规模树结构数据的频繁模式挖掘算法；4、图的数据的索引结构ADI和具有高可扩展性的基于ADI频繁模式挖掘；5、基于ADI索引的高效图数据的查询技术；6、基于序列挖掘技术的大规模生物序列拼接系统。通过研究在顶级学术会议SIGKDD上发表论文，并在JCST、软件学报、计算机研究与发展、PAKDD等学术刊物和学术会议上发表论文30余篇。

成果综合统计