许多有害于社会的信息(如毒品与兴奋剂销售信息、暴力信息、反动言论、色情信息等)通过网络得到了传播。网络有害信息对社会稳定、国家安全与青少年的健康成长等都有负面的影响。另一方面,Web新技术层出不穷,网络信息也随之由单一的文本、图像为主转变为包含文本、图像、视频等的多媒体综合体。网络多媒体有害信息的识别与监控已经成为我国信息安全与网络文化的健康发展的重要问题之一。本项目旨在研究网络上有害多媒体信息的识别与监控的原理与方法,重点研究基于语义的有害文本识别、结合先验知识的有害图像识别、结合听觉信息的有害视频识别、网页层次上的多模态信息的融合识别、基于多实例学习的有害网站识别,实现一个网络多媒体有害信息监控的原型系统。项目的主要成果要形成发明专利;同时还要在国际重要刊物和主流的国际学术会议上发表一批高质量的学术论文。通过本项目的研究,要使我国在网络多媒体有害内容识别与监控的研究上达到国际先进水平。
web content monitoring;horror videl recognition;violence video recognition;pornograph recognition;drug image classification
1) 在色情内容识别方面,开发了一种色情内容集成识别系统,该系统能够对色情图片、色情视频、色情网页包进行检测。通过构建肤色检测模型和分类器优化设计,该系统能够快速高精度的识别网络色情信息。 2) 在毒品类图像识别方面,针对大麻植物图像、大麻烟叶图像和吸毒工具图像分别提出了三种不同的识别算法,识别效果明显。此外,还提出了一种基于多模态多示例学习的毒品网页在线学习与过滤算法。该方法通过融合图像信息与图像周围的文本信息来提升网页过滤算法的性能,并可以通过检索到的网页进行系统的在线学习与自动更新。 3) 在恐怖图像与视频识别方面,提出了一种基于情感认知理论和电影学原理的恐怖图像与视频的识别技术、一种基于模糊支持向量机的上下文敏感多实例学习算法、一种多视角联合的稀疏表示模型等一系列创新理论和算法。由这些理论所支持的网络恐怖信息识别系统能够很好的对网络恐怖信息进行识别。 4) 在暴力视频识别方面,提出了一种基于属性发现的暴力视频识别方法。首先用文本描述信息进行属性发现,然后以属性词汇为词根,通过共生和匹配等衍生方法,聚类属性同义词集,再采用归一化互信息和最大生成树算法建立属性关系图,结合暴力视频的视觉特征和音频特征以及运动信息对网络暴力视频进行识别。 5) 研究了网页整体表观的视觉感知与挖掘,探索了从各种不同角度来对网页信息进行分析与挖掘,并引入了机器学习方法来构造网页表观的评价模型。 6) 项目执行期内,在国内外顶级学术会议与专业期刊上,如IJCV、PAMI、ECCV、CVPR、IJCAI、AAAI、ACM Multimedia等,发表的论文共计82篇。 7) 相关科研成果授权专利24项,部分成果获2012年度北京市科学技术奖技术发明类的一等奖和第十五届中国专利优秀奖。