近二十年来,基因组学和生物信息学取得了飞速的发展,为研究非模式生物提供了方法学和理论支持。转录组测序是目前在未知基因组物种中大规模获取编码基因序列的较为有利的手段,结合二代测序技术后,提供了在合理费用下研究非模式生物编码基因的便捷方案。然而,当前通过转录组测序组装出的DNA片段过于零碎,大大限制了对非模式生物编码基因的认识。转录组组装受两个主要因素制约1,转录区域的复杂度;2,转录区域的不均一性。本课题将利用新测序技术逐渐增加的测序序列长度,以及成对序列的信息来提高组装出基因片段的长度和准确性,并开发出解决新测序技术下转录组组装的软件。该软件将支持多个测序平台的数据;较好地支持50bp之上的短序列;对不同表达量的基因区分组装,提高低表达基因的组装效果;使用更多信息识别基因的不同剪切方式。
Next Generation Sequencing;Sequence Clustering;Sequence Assembly;Pseudo-Sanger Sequencing;RAD
二代测序技术给基因组学和生物信息学带来了巨大的机遇和挑战。本项目旨在开发算法和软件来解决二代测序技术中的组装问题序列读长、错误率以及大数据量。针对这个问题我们做了如下开发1,短序列聚类组装;2,虚拟长序列构建。技术开发1面向海量短序列的聚类问题。我们使用了成块的间隔种子作为索引寻找序列间的相似度,然后利用类似深度测序中寻找杂合子的策略来对所有相似的序列进行细分类。细分类的结果可能会将基因组同一区域的序列分隔成多个子类,因此我们最后利用生成树来融合杂合子造成的子类,从而形成正确的短序列聚类结果。该技术目前已经广泛应用于RAD测序的数据分析中。技术开发2面向双向测序序列的组装。基本思路是正确填充双向测序序列内部未测序的空洞部分,从而获得完整的长的序列,大大提高组装的结果。给定一对双向序列,我们通过比对得到和双向序列存在重叠的其他双向序列,也即聚类。然后将聚类获得的所有可能落在局部区域的序列进行局部组装,就得到了给定双向序列的完整序列。该方法有三个优点a,增加序列读长,从100bp增加至600bp;b,纠正测序错误,在局部组装中测序错误得到了校正;c,在局部组装中也能够识别出杂合子。我们开发了对应于上述两个新技术的软件rainbow和anytag,并发表于Bioinformtics和BMC Genomics上。本项目的研发成果能够有效地提升二代测序技术下的RAD组装和全基因组装效果。