国家在利用互联网收集社情民意的新方式探索方面加大了力度,力求及时准确地把握全局性、苗头性、倾向性问题,努力成为密切联系人民群众、反映群众意见诉求的重要渠道,成为党和政府舆情汇集和分析机制的重要方面。本项目以探索多种语言文字环境下的网络社情民意的汇集和内容融合为出发点,并通过内容审计技术,提高与内容安全相关的舆情监测实效性,为网络舆情的疏导提供信息支持,为进一步开展多语言文字环境下的网络舆情监测系统,以及进行多种语言环境舆情预警方面的研究,奠定基础.
Public opinion collection;Network public opinion;Content audit;Multi-langusge;
本项目主要研究多信息源网络环境下的信息获取技术,研究多种语言文字环境下的信息预处理技术,结合内容审计技术提出网络舆情疏导监测机制,研究热点事件跟踪技术和舆情预警技术,开发交互式分析程序和舆情监测工具这5个方面展开了研究工作。具体而言,主要包括以下七个方面(1)多语言网络文本数据的获取方面研究支持增量的分布式网络爬虫、网络协议形式化描述和移动端数据获取应用、以及基于微博中的信息获取接口等三个方面,形成一套多语言网络文本数据的获取和预处理技术。(2)多语言网络文本预处理方面研究原始网页预处理、维吾尔和哈萨克语的文字分词、维吾尔、哈萨克、柯尔克孜语的文本特征选择等三种关键的技术,这是多语言文字环境下的信息预处理的主要工作。(3)多语言语料库和特定资源库构建方面研究收集整理文本语料的方法、维吾尔语和哈萨克语词性标注技术,并在大量文本语料的基础上,建立了相应的敏感词库。(4)维吾尔文、哈萨克文、柯尔克孜文文种识别算法方面研究少数民族文字、汉语言文字的文种识别算法,维吾尔文、哈萨克文、柯尔克孜文特定关键词语料库,以及三种文字的多语言文字文种识别算法。通过研究上述语言的字符编码特征、独有字符、复合字符等特点,设计并实现了维、哈、柯文识别算法,具有较好的识别率。(5)敏感词识别和过滤算法方面基于敏感词和平行语料库,实现了基于布尔模型的维吾尔语、哈萨克语、柯尔克孜语的敏感词识别和过滤算法,并集成到原型工具中,作为不良信息识别和过滤模块。(6)主题分类算法方面研究维吾尔、哈萨克语的文本表示,基于K-means的维吾尔语、哈萨克语文本主题分类算法、K-means算法的分布式优化等方面,在实验中具有达到较高的分类准确率。(7)原型工具的研发方面开发了单机版的支持维汉、维英的文本信息采集和检索工具,以及网络版的支持维、哈、汉、英的网络信息采集和检索工具。 本项目完成了计划书中的研究任务,并完成了相关的人才培养目标,项目中得到的部分结论可推广,对多语言网络环境下信息获取和检索方面的基础应用研究具有一定意义。