准确预测MHC II类分子亲和肽,一方面,在理论上有助于我们理清免疫识别与应答的基本机制;另一方面,在实际应用中,能够帮助我们快速找到抗原表位,从而指导疫苗研制与药物设计。本项目的主要目标是开发出MHC II类分子亲和肽的高精度预测算法,为免疫学家与医学工作者节约大量时间与金钱。本课题以MHC II类分子亲和肽的预测作为研究对象,在机器学习的理论框架的指导下,设计基于多示例学习的算法解决亲和肽长度不均一的问题,然后设计基于多任务学习的算法克服大量MHC II类分子缺乏训练数据的困难,最后设计基于集成学习的算法有机融合基于不同信息(序列信息和结构信息)和各种技术(如ANN,SVM等)的预测模型,以提高预测精度。拟解决的科学问题包括(1)如何为长度不均一的多肽设计等长的编码或合适的核函数 (2)如何实现不同MHC II类分子训练数据之间的知识共享(3)如何设计有效的集成预测框架。
immunological informatics;MHC Peptide binding prediction;machine learning;;
MHC分子与抗原肽的绑定是T细胞介导的免疫应答中不可或缺的一步,起着至关重要的作用。MHC分子亲和肽的精确预测对于免疫学家及医学工作者意义重大。 一方面,在理论上有助于帮助我们理清免疫识别和免疫应答的基本机制;另一方面,在实际应用中能够帮助我们找到抗原表位,从而指导表位疫苗和抗体药物的快速研制。 MHC II类分子的多样性,亲和肽长度变化范围大以及绑定核心的灵活性,使得MHCII亲和肽的预测成为一个极具挑战性的问题。本项目主要研究:(1)MHC II类分子亲和肽特异性预测;(2)MHC II类分子亲和肽非特异性预测(跨亚型预测);(3)MHC II类分子亲和肽的集成预测。在MHC II类分子亲和肽特异性预测方面,在充分考虑目前各种预测方法的特点和问题本身的特殊性的基础上,我们提出了了基于多示例学习的方法,MHC2MIL,和基于字符串核的方法,MHC2SK,来解决亲和肽长度不均一的问题。MHC2MIL在DP、DQ标准数据集上预测效果好于目前最好的预测方法MHC2SK和NN-Align。在MHC II类分子亲和肽非特异性预测方面,我们提出了基于打分矩阵的方法,TEPITOPEpan,和基于核方法的MHC2SKpan。TEPITOPEpan通过不同MHC分子在pocket之间的相似度来建立它们绑定特性的联系,而MHC2SKpan通过不同MHC分子伪序列之间的相似度来建立它们绑定特性的联系。TEPITOPEpan计算速度快,在配体、表位和绑定核心的预测上表现优异。另外,MHC2SKpan在多个数据集上表现出和目前最好的NetMHCIIpan-2.0相似或更优的性能。最后,我们进一步研究了多种集成学习的策略,开发了MetaMHCpan服务器,集成多种预测方法如MHC2SKpan,TEPITOPEpan和MHC2MIL等,进一步提高预测性能。我们同时开发了多个在线服务器,为生物医学研究人员进行计算机辅助疫苗设计提供便利,降低生物实验成本,在带来巨大经济效益的同时造福社会。