本项目以损失函数为切入点研究信息检索中的排序学习问题,系统地解决了排序学习中排序性能偏低和标注代价过大的问题,推动了排序学习研究向实用化迈进,在信息检索、网络搜索及其他需要排序学习的相关领域都有广泛的应用前景。针对传统排序学习中性能不够理想的问题,本项目在深入分析排序结果顶部的错误对排序性能的影响更大的特性基础上,提出代价敏感的排序损失函数。并进一步研究不同查询及其相关文档之间的差异性,提出多查询相关排序模型融合函数,提高排序的性能。大规模真实数据的实验结果表明,本项目提出的代价敏感排序学习算法和多查询相关排序学习算法可以取得比传统排序学习模型更好的性能。针对传统排序学习中标注代价过大的问题,本项目提出基于半监督学习和主动学习思想的排序学习算法在训练过程中利用无标注样本信息,降低标注代价。大规模真实数据的实验结果表明,本项目提出的半监督排序学习算法和主动排序学习算法可以在保证排序模型性能的前提下,降低标注代价。此外,本项目设计开发了一整套用于信息检索的排序学习系统IRIS,可以快速的完成整个信息检索实验的实现和分析。
英文主题词Information Retrieval; Learning to Rank; Loss Function; Semi-surpervised Learning; Active Learning