蛋白质亚细胞定位预测目前已经成为蛋白质科学和生物信息学研究中的一个热点问题,对蛋白质的功能、相互作用及调控机制的研究具有重要的意义。但是,从序列信息获取角度来看,现有方法所获取的信息较单一,各个层面的信息没有得到很好的融合。因此如何系统地融合不同的信息来预测蛋白质亚细胞定位是一个迫切需要解决的问题。本项目针对蛋白质亚细胞定位预测中信息的提取、挑选及融合等问题展开,重点研究如何充分提取蛋白质序列及结构信息,挑选核心信息,寻找预测策略的有效建模方法。主要内容包括综合利用统计分析理论提取氨基酸出现频率信息、位置分布信息及二级结构的序列信息,并建立蛋白质多重信息组合模型,基于相对重要性的随机森林对多源信息进行有效地融合、挑选,通过设计合理的预测方案,提高蛋白质亚细胞定位预测的精确度。该项目立项,对蛋白质亚细胞定位的高精度预测,进而对蛋白质功能和相互作用的进一步研究,都有着重要的理论和实际意义。
英文主题词Subcellular localization;Feature extraction;;Machine learning;Information fusion;