申请人近几年在计算机蛋白质结构预测领域做出了一系列重要的工作: 1) 设计和发展TASSER/I-TASSER蛋白质结构预测算法。该算法在2006, 2008,以及2010年国际蛋白质结构预测服务器大赛(CASP)均排名第一 2) 利用系列-结构-功能范式,开发COFACTOR蛋白质功能预测算法。该算法在2010年CASP蛋白质功能预测大赛排名第一 3) 证明当前的蛋白质结构PDB库足以解决蛋白质结构预测问题 4) 建立人体所有G蛋白偶联受体(GPCR)结构库 5) 提出TM-score,TM-align和MM-align的蛋白质结构比较新概念 6) 设计开发该领域最重要的在线蛋白质结构和功能预测服务器
Protein structure prediction;CASP;Non-homologous proteins;Genome-wide protein structure modeling;
本项目的主要拟定目标是开发新的蛋白质结构预测算法。项目重点集中在预测非同源蛋白的结构。因为这类蛋白质在蛋白质库中没有同源模板,传统的同源算法不能适用。 针对非同源蛋白,我们设计了两套新的算法。第一,我们开发了QUARK软件。本软件先收集1到20残基长度的片段,然后利用蒙特卡洛模拟的算法来组装非同源蛋白结构。第二,我们把QUARK和早前开发的模板依赖的I-TASSER软件相结合,发展了一套新的针对非同源蛋白结构的预测方法。该方法的核心是利用蛋白质结构比对的算法在PDB库中找到和QUARK的从头算法模型类似的蛋白拓扑结构,然后利用I-TASSER对该拓扑结构进行优化。 这两种算法都在最近举行的第十届CASP蛋白质结构预测大赛上进行了测试。测试结果显示了这些新算法相对传统算法的优势。其中,QUARK和I-TASSER的混合算法(Zhang-Server)和QUARK软件在第十届CASP大赛上分列第一,二名(参见CASP的官方排名http://predictioncenter.org/casp10/groups_analysis.cgi?type=server)。特别值得一提的是,QUARK和I-TASSER的混合算法正确的预测了两个长度为169和161个残基的非同源蛋白质的结构(蛋白质名称R0006和R0007)。这是CASP历史上第一次由计算机正确预测超过150残基的非同源蛋白的结构。 最近,我们利用开发的软件对大肠杆菌(E. coli)进行了全基因组蛋白质结构预测。由于传统的比较算法不能预测非同源蛋白结构,现有的文献都只是对一个物种的部分基因产生结构预测。这是该领域第一次利用最先进的从头预测算法对 一个物种进行的全基因组蛋白质结构预测。此外,我们也对人体基因组的所有1052个G蛋白受体的结构进行了预测。G蛋白受体长期以来被认为是人体最重要的药物靶蛋白。这些结构和功能的数据已经上传至互联网供该领域科学家免费使用。