蛋白质相互作用是当前蛋白质组学要解决的关键问题之一,这个问题的解决将有助于理解生命现象的本质,并对整个生命科学的发展都将起到强有力的推动作用。本项目将从蛋白质的最基本特征即序列特征出发,在蛋白质相互作用的数据整合、特征编码、分类识别和预测结果校准方面进行深入研究,以探索蛋白质相互作用的规律与本质。首先,在整合来自不同数据源相互作用数据的基础上,利用氨基酸残基的理化性质,并结合自相关方法对蛋白质序列进行编码;然后,运用旋转森林和神经网络学习委员会机这两种多分类器集成算法来预测蛋白质相互作用,并结合进化计算方法优化参数,以达到更好的预测效果;最后利用流形学习方法来校准预测结果中的假阳性与假阴性噪声问题,从而得到高可靠性的蛋白质相互作用预测模型。本项目的研究成果将为了解蛋白质功能的实现机制和治疗相关疾病的药物设计提供理论上的依据。
Multi-classifier ensemble;Manifold learning;Protein-protein interaction;Biological sequences;Prediction
本项目首先提出5种生物序列的特征化方法及序列比对方法,如基于理化属性的生物序列新的编码方式、基于矩阵束联合对角化的DNA序列的特征信息抽取等。然后在特征提取基础上,根据数据的特点,提出几种新的基于多分类器集成及流形学习校准的新蛋白质相互作用建模、预测(或分类)及评估方法。特别地,我们针对有标记和无标记混合数据,构造了t-逻辑语意嵌入(t-LSE)方法用于蛋白质相互作用网络建模,并提出了一种用于评估和预测蛋白质相互作用的基于流形嵌入与多数据源集成的鲁棒的计算方法。进一步地,我们还提出了一种用于预测蛋白质相互作用的基于蛋白质序列信息的分层主成份分析-集成极限学习机(PCA-EELM)方法,以及基于稀疏表示的最优投影分类法(OP-SRC)。本项目迄今已经发表SCI收录国际杂志论文20篇、EI收录国际会议论文12篇等。