在信息检索系统中,对检索结果的排序一直是最核心的研究问题。排序在互联网搜索引擎,协同过滤、自动问答,自然语言理解等领域都有广泛应用。近年来,研究者把机器学习用于排序问题上,提出了排序学习(Learning to Rank),并逐渐成为了信息检索和机器学习中的一个活跃的研究方向。目前,大部分已有的排序学习研究都采用全监督学习的方式。本课题拟研究半监督的排序学习理论与算法。首先,针对半监督排序中需要处理非常大规模的未标注数据的问题,拟提出基于随机次梯度下降和投影的快速学习算法;针对未标注数据中含有较多噪声的特点,拟研究采用稀疏学习模型来抵御噪声,并采用关联规则从未标注数据中抽取可信度高的信息;研究半监督排序的泛化错误上界分析,学习的持续改进条件等。
learning to rank;semi-supervised learning;sparse models;low-rank matrices;rank aggregation
本项目主要研究通过半监督的排序学习方法来提高信息检索系统中的检索结果的排序准确率。项目的研究工作按照预定计划来开展,完成了预期的目标。具体地,我们完成了以下三方面的研究内容(1)提出了两种半监督的排序学习算法,包括基于关联规则的直推式排序学习,基于对象相关性的值推式排序学习;(2)提出了两种基于稀疏模型的排序学习的算法,以更好地抵御数据中的噪声;(3)提出了基于低秩矩阵学习的排序学习模型,以及相应的针对大规模数据的分而治之的学习算法。项目的研究成果包括一流国际会议论文两篇(分别发表在AAAI 2013和CVPR 2013,均为CCF A类国际会议),SCI期刊论文8篇(包含IEEE Transactions长文4篇,其中3篇为CCF A类国际期刊,1篇为CCF B类国际期刊),国内重要期刊论文1篇;获得国际权威评测PASCAL VOC 2012 Challenge的物体分类比赛冠军,百度公司的“火眼金睛——快速识别人像”比赛的第二名,默克制药公司的药物分子活性预测比赛的第四名。以开放源代码形式发布排序学习算法FenchelRank。