视频片断的语义概念建模对于视频检索、过滤乃至视频挖掘具有重要意义。随着视频数据的日益增多,针对海量视频的大语义集合的自动标注尤为重要。以机器学习的观点,语义概念建模本质上是一个类别不均衡和结构数据上的多标号的分类问题。而视频数据则是典型的多模态混合的数据。视频语义概念建模的关键问题是如何充分利用与视频数据相关的一切有效信息构建映射,以增强所构建映射的准确性和稳定性。在本项目中,我们从多通道多层次特征的融合、概念上下文信息的利用、相应的机器学习算法三个方面进行研究,提出了一些算法来提高语义建模的准确性和效率,具体包括融合丰富特征的Video Diver建模框架、FESCO核、SemanGist表示、基于结构预测的语义建模等。部分成果发表在CVPR、ACM MM等顶级国际会议。Video Diver在视频检索领域的权威评测TRECVID 2007的High Level Feature Extraction任务中成为性能最佳的系统。
英文主题词Semantic modeling; Concept detection