视频内容自动分类技术,属信息智能分析和理解领域的应用基础研究。准确高效的视频信息内容自动分类算法,对推动互联网海量视频信息的准确智能分析检索,对提升视频网站的不良视频内容筛选和审核的自动化效率等均具有重要应用前景。本课题围绕新的视频特征获取方法和新的多模态特征融合方法,展开对内容分类算法的研究。在视频特征融合的处理方法中,提出一种新颖的基于改进BOW(Bag-of-Words)模型的视频新特征- - "微词汇"视频语义的构造,并研究其与空时运动特征优化组合的行为/事件理解算法,以及与音频模态特征相融合的多模态视频内容分类方法。课题提出的视频内容自动分类方法,有效融合了视频语义与视频特征分类的各自优势,可提高对视频内容理解和分类的准确性和应用范围,在面向诸如包含色情、暴力等不良视频信息的视频类型分类处理上更加有效。研究成果对控制互联网上不良视频信息泛滥,净化互联网空间也具有重要的社会意义。
Content Classification;Content Understanding;Mini-word;Semantic Model;Multi-kernel Clssifier
本课题研究总目标研究新的视频特征获取方法,提出新颖的基于改进BOW(Bag-of-Words)模型的视频新特征,即“微词汇”视频语义的构造,并研究其与空时运动特征和音频模态特征融合的视频内容自动分类方法,最终形成一套有效的准确性高的视频内容自动分类算法。并提出预期科研成果申请发明专利3项,发表论文8篇。本课题针对视频内容自动分类目标实现,提出四类关键问题研究及各具特色的研究内容 1、视频内容构造“微词汇”语义,并构建目标词汇和场景词汇方法的研究针对“微词汇”语义特征的建模与获取方法研究的需要,聚焦图像和视频的BOW和BOVW两类特征的分析与研究,根据自定义的语义词汇,对BOW特征进行改进。例如,“机场”,“商场”,“街道”等语义词汇定义为宏词汇,其下还可以细分为更多的语义词汇,例如,“标识”“人流”“车辆”等微词汇特征,不同的微词汇特征可以把底层的纹理特征,结构特征,统计特征等与宏语义进行关联。本课题提出了十多种微词汇语义特征的定义,并进行了深入的研究分析,建立了分层语义模型,可逐层语义汇总,构成更高级的语义特征。 2、空时运动特征的获取研究针对视频内容分类的空时特征算法获取方法的需要,聚焦视频的高维特征的分析与研究,本课题提出了4种不同的空时特征,3D-SURF,VHD,3D-HOG等特征,满足不同情况下的分类需求。 3、多模态特征优化组合研究针对视频丰富的特征模态有效区分内容的需求,聚焦视频除静态图像特征之外的模态特征,即音频特征的获取方法的研究。音频特征在大多数的自然场景视频中都有着较好的应用,例如,街道,音乐会现场,机场等,往往具有得天独厚的优势。本课题提出了2种不同的音频特征与图像特征融合的多模态特征,此类特征即可用于传统的类型内容分类,例如演唱会,广告,球赛等,也可用于特殊内容分类,例如,暴力内容。 4、相关配套算法的研究针对视频内容分类性能改善和效率提高的需要,聚焦于不同类型分类器的研究,镜头分割算法研究,以及视频内容统计特征获取的辅助算法研究。本课题提出了智能镜头分割算法;本课题还提出了多核分类器等应用研究,最后,本课题还研究了视频的各种统计特征等。 本课题在三年学术研究,共计发表学术论文22篇,其中5篇SCI期刊检索,3篇国际期刊EI检索,8篇国际会议论文EI检索,5篇投稿论文;获授权的发明专利8项。圆满完成并超过预期科研成果