超高深度测序是深入研究生物基因组进化机制细节所需要采取的一类高通量测序手段。传统的测序数据处理手段在计算速度和精确度上都存在严重缺陷,无法满足目前超高深度测序的数据吞吐量要求。本项目利用伪度量空间分割树、多维标度分析和动态最近邻点对查找的思想,借助高性能并行计算,提出并实现对海量超高深度测序数据进行高效精确比对、纠错和聚类的原创性方法,力争在国际上率先实现千万条以上焦磷酸测序序列的精确比对与聚类。在此基础上,通过将聚类结果进行数值向量化以及借助数据挖掘技术,提出并实现一套对多样本测序数据进行量化基因组分析、发掘其中所蕴含的生物学规律的分析方法,解决一系列在计算机科学和生物信息学领域具有普遍意义的课题。本项目的研究成果体现为处理超高深度测序数据的一系列计算方法、处理流程以及工具软件,为基因组学和宏基因组学研究提供强有力的方法论支持和工具支持。
英文主题词deep-sequencing;sequence alignment;sequence clustering;metagenomics;