随着计算机应用的日趋深入,计算机所管理的数据正从原子型的数据转换到聚集类型的数据(集合、序列、树、图),如大量的DNA序列、XML文本、分子结构数据等。但这类数据结构复杂,包含大量的语义信息,缺乏有效的存储和访问的方法,特别是高效的索引结构。本项目的总体思路是利用频繁模式生成技术产生数据的语义特征,并通过对语义特征的有效组织建立相应的索引结构,以索引结构为基础研究相应的查询和分析方法。围绕这个思路,本项目的研究内容包括1、集合数据的索引结构前缀树,基于块的前缀树的存储结构和相关查询算法,以及在XML数据存储系统中的应用。2、基于精确和模糊频繁模式的长序列数据的索引结构,及相关的精确和模糊的查询方法,并以此为基础的新的BLAST算法。3、基于频繁模式的图和树数据的组织方法,包括两种数据的频繁模式发现方法,基于聚类的图数据的索引结构,基于新的索引结构的图和树类型数据的查询和分析。
随着计算机应用的日趋深入,计算机所管理的数据正从原子型的数据转换到聚集类型的数据(集合、序列、树、图),如大量的DNA序列、XML文本、分子结构数据等。但这类数据结构复杂,包含大量的语义信息,缺乏有效的存储和访问的方法,特别是高效的索引结构。本项目的总体思路是利用频繁模式生成技术产生数据的语义特征,并通过对语义特征的有效组织建立相应的索引结构,以索引结构为基础研究相应的查询和分析方法。围绕这个思路,本项目的研究内容包括1、集合索引结构Set_tree以及基于Set_tree的集合数据选择和连接操作算法;2、针对生物数据管理的序列数据挖掘算法(最大模式挖掘和带约束的挖掘)和索引结构;3、大规模树结构数据的频繁模式挖掘算法;4、图的数据的索引结构ADI和具有高可扩展性的基于ADI频繁模式挖掘;5、基于ADI索引的高效图数据的查询技术;6、基于序列挖掘技术的大规模生物序列拼接系统。通过研究在顶级学术会议SIGKDD上发表论文,并在JCST、软件学报、计算机研究与发展、PAKDD等学术刊物和学术会议上发表论文30余篇。