蛋白质穿线算法可以在序列相似度较低的情况下准确地预测目标蛋白质的结构,是应用范围最广的预测工具之一。但是,传统的穿线算法具有如下缺陷采用的模板或者强调蛋白质个体特征,或者没有充分体现结构方面的特征;选择模板和预测结果的算法都没有充分利用结构特征。此外,如何更好地预测多结构域蛋白质的结构也是一个重要的问题。针对这些问题,本项目拟从以下方面研究基于结构域家族一致模板的穿线算法1)研究如何提取结构域家族一致形状作为模板,构建模板库;2)研究3维片断条件随机场谱模型,用来更准确地选择模板;3)研究如何利用蛋白质结构信息,设计高效、准确的选择算法;4)针对多结构域蛋白质,研究如何准确地预测各个结构域的结构,进而构造出整体结构;5)对上述算法进行面向多核体系结构的并行化研究,进一步提高算法性能。本课题的研究,将进一步拓宽蛋白质穿线算法的应用范围,促进蛋白质组学的发展。
econdary structure prediction;domain;conditional random field;;
对目前常用的蛋白质数据库进行分析,从中提取合适的数据构建源数据库。由PDB,SCOP和Pfam三种数据库构造了一个非冗余的蛋白质结构分类数据集,在此基础上研究蛋白质的分类及预测方法。对常用的几种概率图模型HMM,MEMM、CRF和SCRF进行研究,分析了各自的优点和存在的不足。首先利用CRF进行二级结构预测利用构建的非冗余蛋白质结构分类数据集,通过结构信息对二级结构进行标注,进而构造基于CRF的模型,用于二级结构的预测,得到了良好的效果。3)提取已知结构蛋白质中非结构域部分的结构特征,用于蛋白质结构预测,这一部分内容尚待进一步研究。