在多媒体数据表达、分析与理解、检索等方面取得了重要突破,在本领域国际著名期刊及学术会议上共发表论文70余篇,得到了国内外同行的高度评价和广泛引用。论文共被他引3000余次,其中近5年内SCI他引855次。代表性研究成果包括(1)借助机器学习理论研究了多媒体数据的低维表达,提出了国际上首个线性流形学习方法,解决了海量多媒体数据相似性匹配高计算复杂度及低可学习性问题。在此基础上进一步提出了Laplacianface人脸识别方法,确立了申请人在线性流形学习方面的学术地位。(2)从多媒体数据视觉特征的统计规律出发,提出了基于误差最小化理论的多媒体数据采样及特征选择方法,建立了局部特征与高层语义之间的关联。(3)基于上述成果,提出了基于多媒体信息块层次的互联网链接分析算法,从根本上克服了传统基于网页层次的搜索方法难以挖掘不同对象之间跨媒体多语义关系的缺陷。
multimedia computing;image and video processing;manifold learning;;
随着互联网的快速发展,多媒体计算日渐成为热门的研究领域。我们从机器学习基础理论、海量高维多媒体数据的表达与语义表示、多媒体数据检索方法等多个角度对多媒体计算展开了研究。具体地,我们贡献主要有以下三个方面(1)我们提出了基于向量场的框架来学习流形上的函数,应用向量场的方法解决若干传统的机器学习问题。我们通过研究稀疏学习、在线学习和随机优化等问题,改进了非线性统计学习方法。(2)我们提出了有效的数据恢复、表示和语义分析算法,并从流形对齐的角度进行了跨媒体分析。(3)我们提出了一系列哈希算法来编码高维的多媒体数据,有助于加快近似近邻检索的速度;提出了哈希技术与树结构相融合的统一框架来提升检索速度和精度。我们还研究了跨媒体检索。经过四年的努力执行,项目顺利完成,取得显著的成果。我们在国际权威期刊(JMLR、TPAMI、TKDE、TIP等)发表论文14篇,在国际重要会议(NIPS、AAAI、ICML、CVPR、IJCAI、SIGKDD、ACM Multimedia等)发表论文(含已录用)20篇,并获得2012年人工智能领域国际顶级会议AAAI的最佳论文奖。