现有的蛋白质功能预测方案都过度依赖于已知功能的蛋白质序列和结构信息。针对结构已知但功能未知的蛋白质,本项目将提出和发展一套有效利用已知序列和结构信息,并且能够同时在更广阔的序列和结构空间更准确地预测蛋白质功能的新理论方法。利用从蛋白质结构数据库统计出来的蛋白质-DNA、蛋白质-RNA以及蛋白质-蛋白质之间相互作用的半粗粒化统计势,结合分子碎片生长方案,在目标蛋白周围的三维空间区域中寻找与之可能紧密结合的DNA、RNA和蛋白质序列片段,再利用基于物理原理的可极化分子力场对这些片段与目标蛋白的结合强度进行正确评价,最后在相关数据库中搜索包含优选片段的完整DNA、RNA和蛋白质,进而推测目标蛋白的功能。通过本项目,我们不仅可以高效的预测蛋白质的功能,在分子水平上帮助我们更好的认识和揭示蛋白质实现其功能的机理,而且为我们更加合理有效地重构、改造和设计蛋白质表达、调控和信号转导网络提供崭新的研究思路
protein;statistical potential;semi coarse grained;fragments;free energy
当前的蛋白质功能预测基本上都依赖于已知功能蛋白质的序列和结构信息。这种依赖性一方面能够帮助和指引我们进行更准确的蛋白质功能预测,但是也限制了我们揭示和发现完整或者是全新的蛋白质功能。例如,当找不到与目标蛋白具有高度序列同源或者结构相似性的已知功能的蛋白质的时候,上述方法就无法或者可能会错误预测目标蛋白的功能,也就不能够揭示和发现未知功能蛋白的完整甚至全新的功能。本项目提出了一套能够合理有效地利用已知蛋白质的序列和结构信息,结合基于物理原理的能够准确描述原子分子之间相互作用的势函数,并且能够同时在更广阔的序列和结构空间更准确地预测和揭示蛋白质功能的新理论方法。利用从高精度蛋白质结构数据库统计出来的蛋白质-DNA、蛋白质-RNA以及蛋白质-蛋白质之间相互作用的半粗粒化统计势,结合基于分子碎片生长方案的全新分子设计方法,在目标蛋白周围的三维空间区域中寻找与之可能紧密结合的DNA、RNA和蛋白质序列片段,再利用基于物理原理的精确的可极化分子力场以及结合自由能计算方法对这些片段与目标蛋白的结合强度进行细致评价。到目前为止供发表和本项目相关的sci论文23篇,申请专利5个,申请软件著作权5个。另外有三个软件著作权正在申请,证书暂时还没有拿到。还有一篇与蛋白质功能预测相关的工作,已投到PNAS并正在进行修改。