网络舆论的语义化分析是网络监督、网络监测、网络知识发现、网络行为分析等应用的重要基础。而本体是对领域的概念及其语义关系的一个规范描述,能够很好的表示特定领域的语义信息。本项目通过建立动态本体学习的模型对网络舆论进行语义化分析。本体学习是信息提取的一个分支,目的是从一系列的领域数据集中,自动或者半自动的提取关键概念及其语义关系来构建一个本体。首先,针对网络舆论的时间特征,定义了本体中概念,关系,以及实例的时间属性;其次,建立了关键概念的动态提取模型,通过对支持向量机,人工神经网,贝叶斯学习,归纳学习,以及强化学习等五种机器学习方法的深入分析,采用迁移学习的机制对不同时间点的网络舆论的关键概念进行了提取;然后,基于提取的关键概念,建立了语义关系的计算模型,基于规范信息距离衡量了概念之间的Kolmogorov 复杂性,从而估算了概念之间的语义距离,构建了面向网络舆论的本体;最后,通过大规模真实数据集来验证了该模型合理性和完备性。
英文主题词Public Opinion; Ontology Learning; Transfer learning; Normalized Information Distance