课题重点研究多源媒体信息深度采集、网络信息的智能分析、舆情信息的综合表达等核心理论及关键技术,并在此基础上,开发一套对于网络舆情的全面掌握与客观反映,为决策部门提供科学决策依据的网络舆情监测与预警原型系统。在信息深度采集方面,拟采用机器人动态仿真、内容协商等原理,研究动态WEB网页、权限保护论坛、即时通信网络等高难度信息源的信息自动采集技术,实现对高难度网络媒体信息的全面、深度采集。在信息智能分析方面,拟采用多媒体群件理解模型,研究海量网络信息的快速语义理解、特征提取、快速分类和热点识别技术,实现对网络信息的快速处理。在网络舆情信息的表达方面,拟重点分析相关部门对网络舆情分析需求的共同点,研究灵活、通用的网络舆情信息自动表达技术,实现对决策部门的技术支持。
Network Public Opinion;Information Collection;Data Mining;;
随着社交网络等互联网服务的兴起,社会个体在网络上发声变得越来越普遍,舆情分析因此从社会学的定性研究转变为基于信息分析的定量分析。近几年中无论商业服务和政府管理都高度重视舆情分析,并以此为调整服务和管理的重要依据,全面掌握并客观反映舆情的分析技术研究变得越来越迫切。课题组从舆情理论研究和信息技术推进自动化舆情分析两个角度入手,对舆情分析系统进行全面研究,为决策部门提供技术支持。本项目的研究成果主要有信息深度智能采集的研究,针对微博数据进行了文本和多媒体的特征分析和分类算法研究,以及社交网络分析、热点分析、舆情指标体系等舆情管控关键技术研究。在网络信息深度智能获取领域,课题组进行远程网络互动式动态信息提取的研究,形成了功能齐全、性能稳定的动态信息提取模型,通过对新型网络应用层通信协议的分析,进行信息高速捕获的研究。课题组据此实现了高性能信息自动提取机器人原型。该原型能够独立地对指定网络动态媒体进行信息的深入提取,将为网络舆情管控中全面而深入的信息获取提供支撑。课题组提出并实现了基于稀疏编码的图像特征抽取方法和基于DBN的分类识别技术,并在此基础上提出了可应用于舆情分析的图像内容分类框架。基于稀疏编码的图像特征抽取方法解决了当前图像分析中使用稀疏编码效果不好的问题,设计实现了叠加子图像的切分方法,通过Max-pooling池化法降低图像特征维度,结合DBN网络实施分类得到了很好的分类效果,通过实验得到了分类系统的最佳分类参数。文本信息处理方面,首先针对微博用词随意性大、语词多创新的特点,提出了传统分词算法的优化算法,该算法能识别网络词汇,并对新词进行类型分类。其次,针对倾向性分析中的观点要素和情感特征抽取,进行了特征分析研究并提出了基于纹理的文本特征抽取方法。分类算法方面,课题组在已有工作基础上探索了支持张量机在文本分类方面的应用,实现表明在小样本和数据偏斜的情况下STM表现比SVM要好。舆情管控方向上课题组提出了基于模糊聚类和标签传播的网络结构分析方法,提出了实时数据流中进行热点分析方法,提出了微博重要度衡量指标,提出了能真实反映用户影响力的计算方法。在舆情指标方面,课题组按主题制定了22个一级主题98个二级主题和133个三级主题基于分类的舆情评估指标计算体系。