在浩瀚的数据海洋里,人们怎样才能吸取精华、去其糟粕,已经成为互联网时代人们关注的重大问题,也是大数据处理面对的挑战,同时也是国家网络经济发展的关键。敏感信息(如负面热点话题、负面突发事件、不良信息等)过滤是信息过滤即重要又非常困难的任务。针对敏感信息过滤时间滞后、准确性低、自适应性差等问题,本项目以互联网中文文本媒体(网页、微博、论坛等)为研究对象,采用意见挖据、机器学习、高性能计算和自然语言处理等技术,研究敏感信息特征抽取算法,以揭示敏感信息和敏感词的内在属性;研究敏感信息自适应顶层过滤模型,实现敏感词动态识别及敏感词极性;研究敏感信息自适应低层过滤模型,从整体和语义角度自适应识别敏感信息。在此基础上,实现网络敏感信息自适应多重过滤模型原型系统,用以验证项目研究成果的可用性。项目研究成果将为大数据处理探索一种新的途径;为舆情监控、商业智能、辅助决策等应用系统开发提供技术支持。
英文主题词sensitive information;information filtering;emotional computing;view sentence;