Ⅲ型分泌系统所分泌的效应蛋白是许多革兰氏阴性病原菌发挥毒性的重要武器,然而目前人们对效应蛋白的功能和工作机理却了解甚少。本课题旨在利用自然语言处理和机器学习方法揭示大量隐藏在细菌基因组中的效应蛋白,并从氨基酸序列和二级结构考察效应蛋白的分泌信号。研究内容主要包括以下四个方面1)利用自然语言处理技术对Ⅲ型分泌系统病原菌蛋白质进行特征提取;2)使用latent Dirichlet allocation模型进行特征选择和蛋白质序列上的语义分析;3)提取二级结构、残基可溶性等领域知识运用于效应蛋白与分泌信号预测中;4)使用半监督学习算法预测效应因子。本课题的研究对揭示Ⅲ型分泌系统的分泌机制以及与Ⅲ型分泌系统密切相关的动植物病虫害防治、人类健康保护和共生植物培育具有重要理论意义和应用价值。
type III secretion system;effector;feature extraction;machine learning;secretion signal
本项目对革兰氏阴性病原菌的Ⅲ型分泌系统展开研究,利用自然语言处理和机器学习方法揭示细菌基因组中大量尚未发现的效应蛋白,并从氨基酸序列和结构等方面考察效应蛋白的分泌信号。研究内容主要包括利用自然语言处理和统计方法对细菌Ⅲ型分泌系统所分泌的效应蛋白进行特征提取,使用主题模型进行特征选择和蛋白质序列上的语义分析,结合氨基酸序列、模体(motif)、结构域等生物特性考察分泌信号,并使用机器学习算法预测效应蛋白。本项目研究期间,在国内外期刊及国际会议上共发表论文9篇。其中期刊论文4篇,国际会议论文5篇;SCI检索2篇,EI检索2篇,中国科学引文数据库核心库期刊论文1篇,培养硕士生3名。具体成果如下 1)将细菌全基因组蛋白质序列建模为一种生物语言,开发了蛋白质序列分词方法,用于提取氨基酸的序列特征;并使用主题模型(包括潜在狄里赫雷分布,以及HMM-LDA)对词的性质进行分析,实现特征的选择。 2)将词频、TF-IDF、互信息(MI)以及信息增益(IG)等基于统计的特征选择方法运用在效应蛋白分类上,进行了综合比较与分析,并提出改进的TF-IDF方法以及基于受限波尔兹曼机的特征提取方法,实验结果表明能够有效减少特征个数,同时提高分类精度。 3)搜索效应蛋白序列模体,并与基于统计方法挑选出的序列特征组合起来,形成混合的特征,对其分类效果进行了深入研究和比对实验。 4)对蛋白质序列进行分段研究,考察分泌信号与蛋白质序列的位置关系;并使用PFAM进行结构域搜索,发现了与病原毒性相关的Avr等效应蛋白特有的结构域。 5)使用关联规则抽取方法找出了具有统计显著性的词共现规则,从而获得关联特征,有助于寻找效应蛋白的序列信号与结构特征。 6)考察了监督与半监督机器学习算法对效应蛋白进行分类的性能,并提出一种新的半监督学习算法GA-S4VM,可有效解决标注样本少、未标注样本居多的生物数据学习问题。7)发布了Ⅲ型分泌系统分泌蛋白的预测软件,构建了一个包括目前已知的动植物病原菌Ⅲ型分泌效应因子的数据库。