互联网上多维、高阶和海量的文本、图像和视频等数据存在着十分广泛、错综复杂的交叉关联,具有跨媒体特性。分析与挖掘互联网网页、不同类型多媒体数据和用户交互信息之间所存在的交叉关联是下一代搜索引擎迫切需要解决的核心问题。本项目将重点研究如下内容研究用户以自然语言形式所表达的检索意图和以跨媒体样例形式所表达的检索意图的理解机制;研究基于有效的网络文本、图像与视频内容挖掘的网页分析技术;研究跨媒体信息挖掘与知识获取的理论模型和方法;研究跨媒体数据存取与知识表达的索引方法;研究精度高、速度快和鲁棒性强的垂直搜索引擎算法;对研究成果进行有机集成,研发面向旅游行业的跨媒体搜索引擎。
cross-media;sparse representation;manifold learning;hashing and ranking;
互联网上多维、高阶和海量的文本、图像和视频等数据存在着广泛复杂的交叉关联,具有跨媒体特性。分析与挖掘互联网网页、不同类型多媒体数据和用户交互信息之间所存在的交叉关联是下一代搜索引擎需要解决核心问题。项目在跨媒体复杂关联关系表达与建模、高维特征降维与选择、跨媒体检索、跨媒体内容挖掘等方面进行了深入研究,提出了基于混合超图的复杂关系表示和非负矩阵分解的主题建模、高维特征结构性稀疏选择、基于几何观点的流形学习、跨媒体耦合字典学习与多模态哈希索引、基于跨媒体双向结构学习的排序机制、基于跨媒体关联的视频内容与文本内容对齐、以地理位置为核心的跨媒体数据挖掘与知识抽取等算法和具体方法,搭建了跨媒体搜索平台和应用系统。项目组在国际权威期刊和顶级学术会议发表论文86篇,其中IEEE T-PAMI(3篇)、IEEE T-IP(5篇)、IEEE T-MM(5篇)、IEEE T-KDE(2篇)、IEEE T-CSVT(2篇)、VLDB Journal(1篇)、ACM TOMCCAP(2篇)、ACM MM(Full paper 9篇)、AAAI(7篇)、IJCAI(2篇)、CVPR(4篇)、NIPS(1篇)、SIG IR(1篇)、SIG KDD(1篇)。项目组所发表的高水平研究成果也得到了国际同行的认同,如获得AAAI 2012最佳论文、ACM MM 2013、ACM MM 2012和ACM MM 2010 最佳论文提名、MMM2013最佳学生论文等。 项目研究部分成果获2010年度国家科技进步二等奖。项目研究期间,杨易获得2012年度教育部全国百篇优秀博士论文、韩亚洪获得2012年度中国计算机学会优秀博士论文、刘亚楠获得2010年度中国计算机学会优秀博士论文提名奖、桑基韬获得2012年度中科院院长奖特别奖和2013年度中科院优秀博士论文。项目研究期间,1人受聘973首席科学家(庄越挺)、2人获得国家杰出青年基金(何晓飞、徐常胜)、1人当选IEEE Fellow(徐常胜)、 1人入选新增中组部青年拔尖人才(万人计划)(何晓飞)、1人入选教育部新世纪优秀人才支持计划(吴飞)。为了推动跨媒体相关领域研究在国际同行之间的交流,项目组在第21届ACM Multimedia(ACM MM 2013)会议中举办了“Cross-Media Analysis and Mining”的Panel。