高通量测序技术的可计算建模与碱基辨识的算法和评估-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

高通量测序技术的可计算建模与碱基辨识的算法和评估

项目名称：高通量测序技术的可计算建模与碱基辨识的算法和评估
项目类别：重大研究计划
批准号：91130008
申请代码：A0117
项目来源：国家自然科学基金
研究期限：2012-01-01-2014-12-31

项目负责人：李雷
依托单位：中国科学院数学与系统科学研究院
批准年度：2011

中文摘要：

新一代测序技术具有高通量、高分辨率、低成本等优点，它为有效地检测低频遗传变异与低丰表达信息提供了崭新的契机。如何区分测序错误和真正的低频遗传变异和低丰表达信息是新一代测序技术急需解决的关键问题。测序系统首先探测并且记录生物序列的光/电信号，碱基辨识是指从光/电信号通过计算还原相应的生物序列并加以评估的过程，它是测序技术的基石。本项目计划在我们原有工作基础上，为新一代测序的主流技术平台建立机理与数据互补的计算模型，开发与国产试剂相匹配的碱基辨识方法，发展比较测序原始光/电信号的统计模型和基于似然函数的检测变异的新算法以及相应的统计评估，发展跨测序平台的比较测序原始光/电信号的统计模型和检测变异的新算法及统计评估，对第三代测序技术的碱基辨识做前瞻性的研究。我们希望这个项目的研究通过高性能计算帮助中国的测序产业不仅做到规模最大，而且质量最好，从而为中国的健康、医学、农业事业奠定一个坚实基础。

中文主题词：新一代测序；碱基辨识；序列映射；盲反问题；基因组拼接

英文摘要：

new generation sequencing；DNA base-calling；read mapping；blind inversion；genome assembly

英文主题词： new generation sequencing；DNA base-calling；read mapping；blind inversion；genome assembly

结论摘要：

新一代测序技术具有高通量、低成本等优点，它使得大规模获取个人全基因组数据成为可能，进而为恶性肿瘤、糖尿病等重大疾病的诊断和个体化治疗提供更系统的科学依据和崭新的希望。本培育项目研究了高通量测序技术中几个核心的可计算建模问题和基础算法。首先对Illumina测序仪的测序原始数据做了系统性的可计算建模。模型的核心是三个混杂算子，并基于李雷原创的盲反问题原则提出了自适应解和算法。从概念上看，首先指出了文献中一类从未提到的由分子簇空间混杂引起的碱基辨识错误，并将它们基本消除。通过对几个典型的数据评测，我们的方法目前可以将现有测序仪自带的碱基辨识的错误减少达到约40%。本项目研究了新一代测序技术中最基础的序列映射算法。近年来Illumina技术不断改进，读长超过150个碱基而且错误基本上是替换错误。根据这些特点，我们设计了一种原创的高速序列映射方法SEME，它由“单种子搜寻”和“延拓”两步组成。经过概率计算发现，通过合适地选取种子长度，在基因组中能够无错误地搜寻到种子的概率可以达到足够大，同时控制假阳性概率。在延拓步骤，提出了自匹配函数的概念，并在此基础上设计了线性复杂性的算法。通过在一些数据集上测试，SEME的映射速度已达到目前最流行的BOWTIE2的15倍。而且SEME具有以下独特的特点测序数据质量越高，映射速度越快。我们评估了算法的灵敏性和特异性，这在文献中还是首次。本项目提出综合利用序列映射、De Brujin图、和统计分析的基因组拼接方法，这个方法目前在拼装高杂合度的野生水稻Rubipogon基因组项目中已得到比较理想的结果。本项目创新性地建立了RNA降解的数学模型，进而准确的校正了由RNA降解引起的测序序列非均匀分布带来的系统偏差。同时，为了克服RNA-Seq重复样本少、参数多对挑选样本间差异表达基因造成的假阳性高的影响，巧妙地基于现有统计方法以及信息融合技术，提出了基于整合外显子显著性的差异表达基因检测方法。本项目的研究初步系统地揭示了纳米粒子[Gd@C82(OH)22]n抗癌的分子机制。我们利用本研究组原创的高通量基因表达数据的可计算模型，分析了一个对照实验的基因表达芯片数据，发现 [Gd@C82(OH)22]n通过细胞内质网压力和TP53相关的调控网络诱导了癌症细胞MCF-7的细胞凋亡。[Gd@C82(OH)22]n有望成为中国原创的抗癌药物。

成果综合统计