本项目将藏文网站、论坛、博客、微博等网络舆情信息作为研究对象,利用藏文文本挖掘和自然语言处理技术提取用户关心事件的时间、地点、主体、行为和客体要素,设计网络用户对事件的关注及态度模型并建立具有差异度的用户关注及态度模型库。深入研究群体智能涌现机制及工作原理,围绕群体智能涌现的条件和特征设计实现虚拟群体仿真模型,研究重点不在于优化已有群体智能算法,而是探索个体目标与群体目标的关系、自组织的机理、群体智能涌现的机理,揭示群体间普遍存在的条件规则,为群体智能的进一步研究与应用提供理论新思路和特色理论。提出基于群体智能涌现的高效准确的藏文网络舆情分析算法,包括主题关注度分析、热点分析、焦点分析、敏点分析、拐点分析、频点分析、重点分析,用于预测潜在突发事件。建立科学的藏文网络舆情突发事件预警指标体系,对虚拟群体中爆发的突发事件进行监测,根据群体对舆情分析的态度选择预警等级并推荐处置意见。
Tibetan;text mining;swarm intelligence emergence;public opinion analysis;emergency warning
本项目将藏文网站、论坛、博客、微博等网络舆情信息作为研究对象,利用藏文文本挖掘和自然语言处理技术提取用户关心事件的时间、地点、主体、行为和客体要素,设计网络用户对事件的关注及态度模型并建立具有差异度的用户关注及态度模型库。深入研究群体智能涌现机制及工作原理,围绕群体智能涌现的条件和特征设计实现虚拟群体仿真模型,研究重点不在于优化已有群体智能算法,而是探索个体目标与群体目标的关系、自组织的机理、群体智能涌现的机理,揭示群体间普遍存在的条件规则,为群体智能的进一步研究与应用提供理论新思路和特色理论。提出基于群体智能涌现的高效准确的藏文网络舆情分析算法,包括主题关注度分析、热点分析、焦点分析、敏点分析、拐点分析、频点分析、重点分析,用于预测潜在突发事件。主要工作包括(1)为了将群体智能技术应用于半结构化的藏文Web文本聚类中,提出了基于群体智能的半结构化藏文Web文本聚类算法,充分考虑群体智能技术对藏文文本聚类准确性和时间效率的影响;(2) 考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析;(3) 设计实现了基于群体智能涌现的藏文网络舆情分析及突发事件预警系统,提供友好的可视化界面,提供了包括藏文信息采集、文本聚类和舆情分析管理等在内的功能强大的藏文网络舆情智能分析处理能力。