对体育视频进行事件检测和事件层语义关系挖掘是体育视频内容浏览和检索中的一个重要环节。现有体育视频语义内容挖掘方法的不足之处在于其往往针对某些特定的类型,方法不具有普适性。而采用与领域无关的分析方法虽然具有较好的普适性,但性能较差。本课题的研究目标是在一个统一的系统框架下完成不同类型的体育视频进行高效的分析和挖掘出不同语义粒度的内容。因此在本课题研究中,一方面要有效地利用体育视频领域相关知识,另外一方面又要考虑到所提出的方法对不同类型的体育视频的适用性。为了很好的兼顾这两个方面,本课题中提出了一种统一的具有可分级的体育视频内容理解方法,其包括鲁棒的局部特征描述方法、镜头的语义分类方法和体育视频高级语义事件检测方法等研究内容。其中镜头划分方法采用领域无关的统计学习方法,而高级语义事件检测是通过统计学习方法来融合镜头语义类型信息、领域相关信息以及事件间共生概率等完成的。
video event detection;sport video;machine learning;hidden condition random field;classifier fusion
深入研究了体育视频事件检测方法、视频关键帧(图像)特征描述和提取方法、基于语义的图像分类和标注、图像分类和识别中多分类器融合等问题。在特征描述、分类器融合、图像标注以及体育视频事件检测方面取得了一系列成果。提出了一种增强型隐马尔科夫模型及隐条件随机场的体育视频事件检测方法,将视频序列首先进行事件单元的划分,然后再融合事件片段内的中级语义的镜头类型信息以及关于该事件的总体描述信息,克服了传统隐马尔科夫模型在事件检测中的不足之处达到了高效的检测性能。提出一种按照化学中“相似相容”原理的图像内容标签标注方法,该方法根据标签间的语义相关性和不相容性进行图像内容相关的标签推荐。在基于Graph-Cut的图像标注方法中,对图像所有可能的标签用一个全联通的Graph进行建模,然后采用Graph-cut优化的来删除那些与图像内容无关的标签。基于多分类器融合的图像分类和识别方法中提出,首先对待融合的弱分类器进行内部结构进行有监督的改造,然后再对改造后的分类器方法进行融合,提升了分类器融合的性能。提出采用可分级的小波包纹理符(HWVP),通过可分级的小波包对图像进行多尺度和方向的滤波,以捕获图像中不同对象在不同子带上的纹理信息,从而有效增强纹理描述的性能。提出基于空间金字塔结构的局部纹理描述方法使得传统的LBP具有良好的尺度描述性,深入探讨了空间金字塔变换核、空间变换级数以及下采样模式对描述符的性能与复杂度的影响。课题中负责人及骨干成员在国际国内重要刊物和会议上发表论文三十余篇,其中SCI论文13篇。其中1篇IEEE TCSVT, 1篇IEEE TGRS, 1篇Pattern Recognition, 2篇Neurocomputing,2篇IET Image Processing等. 申请专利4项(3项已授权),撰写专著章节2篇。