流感病毒长期以来一直是威胁人类健康的重要病原体,它每年都会引起不同规模的流感流行,至今也没有有效预防和控制流感的方法,主要是流感病毒极易发生抗原变异,疫苗会在一两年之内就失去保护效果。因此流感病毒抗原变异规律的研究具有重要的意义。近年关于流感抗原变异位点的研究主要集中在H3N2亚型,一直没有关于H1N1亚型抗原变异位点的文献报道,主要是H1N1亚型的抗原数据相对比较少,数据类型属于"大P小N"数据,已经不适合用传统统计学方法去研究。本项目将采用能处理高维小样本数据的随机森林法来筛选H1N1流感血凝素基因的抗原变异位点,同时建立其随机森林抗原变异预测模型,为合理选择流感疫苗和H1N1亚型流感的进化研究提供科学依据。此外,本项目还将研究应用于二分类变量的基于随机森林的变量间交互作用的筛选方法,并将它用于识别H1N1流感血凝素基因位点间的交互作用,为深入了解流感病毒抗原变异规律提供进一步的线索。
Influenza virus;H1N1;Random forest;Support vector machine;Interaction
流感病毒很容易发生抗原变异,给流感疫苗的研究造成比较大的挑战,因此研究流感病毒抗原变异规律对于流感的防治具有重要的意义。本项目主要研究人群季节性H1N1流感病毒抗原变异的相关位点。首先建立了抗原变异和HA1氨基酸序列的关联数据库,然后采用随机森林回归和支持向量回归递归特征消除法筛选出了人群季节性H1N1流感病毒HA1片段的抗原变异位点,和以往研究不同在于本研究在筛选位点时考虑了氨基酸位点间的联合作用。研究结果显示两种方法各自识别了34和25个抗原变异相关氨基酸位点,其中有17个位点重叠,两种方法筛选出排在最前面的相同的6个氨基酸位点(43, 54, 127, 130, 141 and 193),这些抗原变异位点的识别可以更好地帮助理解和探索人群季节性H1N1流感病毒的抗原变异规律。本研究同时建立了人群季节性H1N1流感病毒抗原变异定量预测模型,该模型可作为流感疫苗株的初步筛选方法,为加快WHO选择流感疫苗提供了有力工具。本研究建立了基于随机森林的二分类预测变量间交互作用的搜索算法,编制了相应的R程序,通过模拟研究确定了参数p 、k和bsize的取值,分别为0.05、7和4。应用该搜索算法识别出了人群季节性H1N1流感病毒HA1片段可能具有交互作用的氨基酸位点组合(73,283)和(68,73),为深入研究H1N1流感病毒抗原变异规律提供了进一步的线索。