新一代测序技术具有高通量、高分辨率、低成本等优点,它为有效地检测低频遗传变异与低丰表达信息提供了崭新的契机。如何区分测序错误和真正的低频遗传变异和低丰表达信息是新一代测序技术急需解决的关键问题。测序系统首先探测并且记录生物序列的光/电信号,碱基辨识是指从光/电信号通过计算还原相应的生物序列并加以评估的过程,它是测序技术的基石。本项目计划在我们原有工作基础上,为新一代测序的主流技术平台建立机理与数据互补的计算模型,开发与国产试剂相匹配的碱基辨识方法,发展比较测序原始光/电信号的统计模型和基于似然函数的检测变异的新算法以及相应的统计评估,发展跨测序平台的比较测序原始光/电信号的统计模型和检测变异的新算法及统计评估,对第三代测序技术的碱基辨识做前瞻性的研究。我们希望这个项目的研究通过高性能计算帮助中国的测序产业不仅做到规模最大,而且质量最好,从而为中国的健康、医学、农业事业奠定一个坚实基础。
new generation sequencing;DNA base-calling;read mapping;blind inversion;genome assembly
新一代测序技术具有高通量、低成本等优点,它使得大规模获取个人全基因组数据成为可能,进而为恶性肿瘤、糖尿病等重大疾病的诊断和个体化治疗提供更系统的科学依据和崭新的希望。本培育项目研究了高通量测序技术中几个核心的可计算建模问题和基础算法。首先对Illumina测序仪的测序原始数据做了系统性的可计算建模。 模型的核心是三个混杂算子,并基于李雷原创的盲反问题原则提出了自适应解和算法。从概念上看,首先指出了文献中一类从未提到的由分子簇空间混杂引起的碱基辨识错误,并将它们基本消除。通过对几个典型的数据评测,我们的方法目前可以将现有测序仪自带的碱基辨识的错误减少达到约40%。本项目研究了新一代测序技术中最基础的序列映射算法。近年来Illumina技术不断改进,读长超过150个碱基而且错误基本上是替换错误。根据这些特点,我们设计了一种原创的高速序列映射方法SEME,它由“单种子搜寻”和“延拓”两步组成。经过概率计算发现,通过合适地选取种子长度,在基因组中能够无错误地搜寻到种子的概率可以达到足够大,同时控制假阳性概率。在延拓步骤,提出了自匹配函数的概念,并在此基础上设计了线性复杂性的算法。通过在一些数据集上测试,SEME的映射速度已达到目前最流行的BOWTIE2的15倍。而且SEME具有以下独特的特点测序数据质量越高,映射速度越快。我们评估了算法的灵敏性和特异性,这在文献中还是首次。本项目提出综合利用序列映射、De Brujin图、和统计分析的基因组拼接方法,这个方法目前在拼装高杂合度的野生水稻Rubipogon基因组项目中已得到比较理想的结果。本项目创新性地建立了RNA降解的数学模型,进而准确的校正了由RNA降解引起的测序序列非均匀分布带来的系统偏差。 同时,为了克服RNA-Seq重复样本少、参数多对挑选样本间差异表达基因造成的假阳性高的影响,巧妙地基于现有统计方法以及信息融合技术,提出了基于整合外显子显著性的差异表达基因检测方法。本项目的研究初步系统地揭示了纳米粒子[Gd@C82(OH)22]n抗癌的分子机制。我们利用本研究组原创的高通量基因表达数据的可计算模型,分析了一个对照实验的基因表达芯片数据,发现 [Gd@C82(OH)22]n通过细胞内质网压力和TP53相关的调控网络诱导了癌症细胞MCF-7的细胞凋亡。[Gd@C82(OH)22]n有望成为中国原创的抗癌药物。