近几年,新一代测序技术对基因组科学的研究产生了深远影响,尤其是基于新一代测序技术的基因组从头测序已经成为研究热点。一般而言,测序新物种产生2-20亿条reads的海量短序列(相当于20-200 GB的数据量),对从头测序的全基因组拼接组装提出了严峻的挑战。因此,发展短序列拼接组装算法生成全基因组序列是从头测序面临的巨大挑战!本项目拟结合新一代测序数据的碱基出错特征,优化配对数据,设计分批的数据处理策略,提出基于拼接信息累计与数据特征相结合的评分方法,并进一步提出reads引导的短序列拼接的核心算法,最后采用GC含量校正拼接结果中重复段的拷贝数,从而发展快速、高精度的全基因组短序列拼接组装算法,建立拼接组装系统。本项目的完成将使我国在基因组从头测序的理论与实践方面上一新台阶。
Genome assembly;Sequence assembly;High throughput sequencing data;Paired-end reads;
在本项目的资助下,项目负责人及团队系统研究了基于高通量测序数据的基因组拼接方法,提出了基于支持向量机的分叉处理方法、基于向前查看策略的分叉处理方法,并在这两种方法的基础上,结合配对数据提出了基于多重启发式的配对数据引导的拼接方法。并且,针对拼接结果中的拼接错误,提出了基于参考序列和配对数据的拼接错误识别方法。相应的论文分别发表在BMC Bioinformatics、PLoS ONE等期刊上。 此外,我们还研究了与高通量测序数据相关的结构变异检测方法、蛋白质多序列比对方法、基因组可视化、de novo突变检测、以及高错误率测序片段比对算法,取得了较好的研究成果,相关论文发表在《Bioinformatics》、《Nucleic Acids Research》等期刊上。 在本项目的支持下,课题组共发表已标注基金号的SCI论文19篇,开发了2套基因组拼接软件,1套结构变异检测软件,1套蛋白质多序列比对软件,1套个人基因组浏览器,1套高错误率测序片段比对工具。