生物序列数据库数据模型、索引、体系结构研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

生物序列数据库数据模型、索引、体系结构研究

项目名称：生物序列数据库数据模型、索引、体系结构研究
项目类别：面上项目
批准号：60573093
申请代码：F020204
项目来源：国家自然科学基金
研究期限：2006-01-01-2008-12-31

项目负责人：朱扬勇
负责人职称：教授
依托单位：复旦大学
批准年度：2005

中文摘要：

生物序列数据的表达和存储是其处理的关键。当前的数据库管理系统由于没有合适的数据模型或数据类型，不能有效地支持生物序列数据类型和操作，人们不得不用文本数据类型或直接使用文本文件存储生物序列数据。然而，文本方式的存储在生物序列数据的处理能力和处理性能上都不能满足要求（如相似性查询、MOTIF查询等复杂操作），这直接影响了生物信息学软件的有效性和实用性。因此，如何有效管理和处理生物序列数据是一个亟待解决的问题。本项目围绕该问题开展了研究，深入分析了生物序列的特征及数据查询需求，总结了生物序列相似性查询、序列功能元素查询、进化研究旁系同源及直系同源查询和生物序列注释查询等四大类查询，在此基础上提出了一个新型生物序列数据模型BioSeg，BiosSeg模型充分表达了生物序列数据的复杂结构和语义，其提供的数据查询具有更高的效率和灵活性；针对BioSeg模型提出了相应的索引算法和查询策略；设计了生物序列数据库管理系统体系结构。这些研究成果为生物数据库管理系统的开发提供了基础。本项目工作完成了项目要求的各项指标，下一步的研究将在生物序列数据库查询语言和查询优化、生物数据库管理系统的设计和开发等方面。

中文主题词：数据库管理系统;生物序列数据;数据模型;索引;体系结构

结论摘要：

英文主题词Database Management System; Biological Sequence Data; Data Model; Index; Architecture

成果综合统计