飞速增长的信息会导致人们注意力的稀缺性。个性化信息自动检索的目标是降低人们的信息负载量和缓解注意力稀缺的重要研究方向。本课题针对提高个性化视频内容的管理和分发效率,为用户有效的搜索和利用富媒体信息提供视频自动标注关键技术保障。面向用户的视频标注技术涉及的研究内容包括视频内容的语义分析和表示、基于稀疏编码的中层语义表示、基于知识迁移的自动标注、个性化用户行为分析及个性化标注问题。课题将通过研究视频的语义分析和镜头场景等概念的抽取,结合用户的个性化分析和机器学习的方法,来对视频进行语义标注。面向交互式数字电视服务,建立一个真实的个性化视频标注及推介系统,将图像视频自动标注、视频结构化及语义分析、用户模型学习三个关键技术环节有机地结合,定位当前视频自动标注、个性化定制技术面向实际应用时存在的瓶颈,从而更进一步促进面向用户的视频自动标注理论与方法研究。
Mid-level representation;Mobile video annotation;Compact Descriptors;Visual Search;Interoperability
本项目的目标是研究面向用户的视频自动标注关键技术。按照项目任务书开展研究,取得一系列的成果进展,包括 (1)针对图像及视频自动标注问题,从多核学习角度,研究中间层表示。针对视觉对象、场景呈现的类内多样、类间混叠,以及视频数据固有的时序相关特性,提出建立面向标注的中间层表示模型。(2)面向海量图像及视频数据,从视觉搜索角度,研究视觉对象标注、视觉词典构建。全面的标注系统依赖强大的后台知识库,提出了一组面向大规模视觉对象搜索的核心算法,利用视觉搜索技术手段,将待标注的视觉对象或场景与知识库中的信息中间载体(图片以及文本标签)建立关联,获得面向用户的关联信息,实现个性化自动标注。(3)针对智能移动终端为面向用户的视频标注应用带来的机遇和挑战,提出了紧凑视觉描述子算法。通过移动终端,用户便捷地采集现实世界的视觉对象,结合传感器提供的个性化数据,针对视觉对象进行高精度匹配和识别,从移动互联网另一端快速地获取关联标注信息。(4)将移动视觉搜索与图像标注技术有机结合,并以移动智能终端为平台,建立“所见即所知”的图像视频自动标注应用范式。提出了包括视觉特征在内的关键技术模块的互操作性解决方案。(5)围绕图像视频标注的视觉特征和检索架构,成功应用于百度的互联网搜索产品与服务。此外,基于视觉搜索的图像标注技术,应用于教育部211重点工程项目《大学数字图书馆国际合作计划》项目。 本项目累计发表(含接收)论文32篇,其中国际期刊论文8篇,包括IJCV 论文1 篇、IEEE TIP/ TMM 论文3 篇、Signal Processing: Image Communication论文1 篇、EURASIP JIVP 1 篇、ACM TIST 1 篇、AI Magazine 1篇,其中EI检索国际会议论文18 篇,包括本领域顶级会议4 篇,IEEE CVPR 1 篇、ACM Multimedia 长文 1 篇、IJCAI 1 篇;获得国家发明专利授权1 项、申请国家发明专利5 项。课题组开发的全局特征描述子、紧凑局部特征、检索流程的描述子软量化在核心技术竞争中胜出,为国际标准制定提供了技术选择依据。此外,依托本项目开发的紧凑视觉特征等关键技术应用于百度的移动互联网搜索产品与服务以及教育部211重点工程项目。综上所述,各项研究成果指标均超出了项目任务书的规定。