生物序列数据的表达和存储是其处理的关键。当前的数据库管理系统由于没有合适的数据模型或数据类型,不能有效地支持生物序列数据类型和操作,人们不得不用文本数据类型或直接使用文本文件存储生物序列数据。然而,文本方式的存储在生物序列数据的处理能力和处理性能上都不能满足要求(如相似性查询、MOTIF查询等复杂操作),这直接影响了生物信息学软件的有效性和实用性。因此,如何有效管理和处理生物序列数据是一个亟待解决的问题。本项目围绕该问题开展了研究,深入分析了生物序列的特征及数据查询需求,总结了生物序列相似性查询、序列功能元素查询、进化研究旁系同源及直系同源查询和生物序列注释查询等四大类查询,在此基础上提出了一个新型生物序列数据模型BioSeg,BiosSeg模型充分表达了生物序列数据的复杂结构和语义,其提供的数据查询具有更高的效率和灵活性;针对BioSeg模型提出了相应的索引算法和查询策略;设计了生物序列数据库管理系统体系结构。这些研究成果为生物数据库管理系统的开发提供了基础。本项目工作完成了项目要求的各项指标,下一步的研究将在生物序列数据库查询语言和查询优化、生物数据库管理系统的设计和开发等方面。
英文主题词Database Management System; Biological Sequence Data; Data Model; Index; Architecture