随着DNA测序技术的发展,越来越多的生物序列数据得以积累,这为从分子层次进行系统发育研究提供了条件,但也对现有的系统发育分析方法提出了挑战。本项目将深入研究分子系统发育分析的三个关键环节,从而改进传统并开发新的分子系统发育分析方法。主要包括1)研究生物序列数据新的数学模型用于提取信息,并构造序列间在数学上严谨在实际应用中有效的、不依赖于多重序列比对的距离测度。2)研究基于距离的系统发育树重建算法本身存在的问题,特别是聚类过程中的距离调整问题,进而改进或整合部分基于距离的系统发育树重建算法。3)研究分子序列数据的不相合性,比较并改进不相合性检测方法,特别是要结合偏序关系和力的作用方式给出新的处理不相合分子数据的手段。同时,收集并整合相应实验数据,建立开放数据库。本项目所研究的是与国际研究同步的课题,无论是对于系统发育分析理论本身的发展,还是对其实际应用都具有相当重要的意义。
Phylogenetic analysis;Algorithm for phylogenetic tree construction;Data analysis;Extraction and selection of features;Mathematical models
随着DNA测序技术的快速发展和一系列基因组计划的实施,生物序列数据正以惊人的速度增长。生物数据的大量出现给传统的分子系统发育分析方法带来了巨大的挑战,一个重要的原因是多重序列比对是其前提和基础。而多重序列比对,除了它的瓶颈问题(计算的复杂性和比对罚分的任意性),还由于基因重排、子串水平上的转换和颠换以及序列长度差异等原因而不能很好地适用于全基因组的系统发育分析。因此,发展快速并且有效的基于非比对方法的系统发育分析工具便成为生物信息学中的一个重要课题。在过去的几十年里,人们尝试着提出了许多序列比较的非比对方法,这些方法从不同的角度挖掘生物序列中隐藏的进化信息。例如,DNA/蛋白质序列的图形表示就是生物序列分析的一种强有力的工具,它不但能够提供生物序列的可视化和更加直观的方式以帮助人们探测序列间的异同,还能够被进一步用来给出生物序列的数值刻画。k-字统计是序列分析的另一种常用方法,这种方法是对单个核苷酸碱基或者单个氨基酸残基组成到长为k的子串(k-字)的推广和深入。还有一种重要的方法是基于文本压缩算法的,例如符号序列LZ复杂度方法、BWT变换方法等。这种方法本身并不进行压缩,但它能变换序列的结构或者存储方式从而使数据更利于第三方算法进行压缩。本项目紧紧围绕基于距离的分子系统发育分析这一主线,注重在生物序列数据的选择、分析与数学模型,序列特征的提取与选择,距离测度的构造与调整等方面开展工作。项目组完成了17篇学术论文、1项计算机软件著作权,在科学出版社出版了1部译著,举办了1场学术会议。