为避免传统监测手段"数据获取"滞后于"传染病发病"的缺陷,课题组前期开展了基于互联网数据挖掘的传染病症状监测研究。研究发现,艾滋病等法定传染病的发病率与百度搜索引擎"与传染病相关"关键词的检索频率具有明显的相关性。本课题据此提出"基于互联网用户检索行为分析,开展国内各省、直辖市范围内法定传染病发病率、死亡率估计模型,以及疫情爆发风险分级预警机制的研究"。这涉及到海量数据相关性分析、数据特征提取与非线性随机过程估计等关键科学问题。课题以基于网络用户检索行为分析的传染病症状监测模型为主要研究对象,首先探讨稀疏学习理论与算法,提取海量检索数据的有效特征;进而研究离散与连续状态的随机过程模型,预测传染病发病趋势与疫情爆发风险;最终对比预测结果与实际发病数据,改进算法以提高模型拟合精度。研究结果将促进流行病统计方法学、网络行为学、传染病监测与控制以及相关学科发展,具有重要的科学和社会意义。
search engine;big data;correlation analysis;feature selection;syndromic surveillance
法定传染病是指国家用法令规定要建卡上报的约40种传染病,这些疾病具有发生的不确定性、传播范围广、传播速度快和社会影响大等特点,是全球公共卫生的重点和热点问题。研究法定传染病的传播特性对于积极应对法定传染病有重要意义。课题以搜索引擎“与传染病相关”的检索趋势数据研究对象,以流行病传播与风险估计模型为研究内容,通过建立传染病症候群网络监测模型,估计肺结核、艾滋病、流感等重大法定传染病的传播动态,研究复杂网络上疾病传播行为的一般规律,并基于传播模型仿真传染病疫情动态,估计重度传染病疫情暴发的风险等级、发病率、死亡率等关键指标,最终为评估疫情、确认预警级别与政府疾病防控决策提供科学依据。在本项目的支持下,已申请中国发明专利2项,在IEEE Transactions on Biomedical Engineering等国际知名学术杂志发表论文6篇,并在IEEE国际会议上做特邀报告1次,获优秀会议论文奖1次,课题组成员周喜川获得十佳青年教师称号,课题组李勤获得“卫生部现场流行病学优秀指导教师” 称号。按照项目申请书计划,本课题主要开展了以下四方面研究 1) 传染病发病趋势定量估计算法研究课题集成时域发病相关检索信息,建立一种新的非线性、非平稳流行病动力学传播模型,估计肺结核的传播趋势,分析潜在的感染通道。该研究发表于国际知名学术杂志SCI2区IEEE TBME学报; 2) 传染病发病趋势估计与分级预警算法研究本课题建立了一种半监督的隐马尔可夫模型框架,分析了与肝炎相关的搜索引擎检索大数据,实现肝炎疫情风险时序分级估计算法,该研究于2013年再次发表在SCI2区IEEE TBME学报; 3) 基于搜索引擎检索数据对亚洲国家法定传染病发病趋势估计研究课题组建立了一种非平稳贝叶斯时序估计模型,分析了搜索引擎检索数据受媒体等外部因素影响的噪声效应。以痢疾等多种法定传染病为例为例,实现了发病趋势动态估计系统,部分成果整理发表于SCI检索期刊Springer JZUS学报; 4) 研究流行病传动力学播理论,从相关性分析、特征提取、鲁棒性计算等角度改进流行病传播监测系统,相关理论研究成果多次发表于SCI检索杂志。