信息检索中的一个非常严重的问题是"词语失配",即用户查询表达和文档表达中所用的词语并不一致。查询扩展特别是基于伪相关反馈的查询扩展是解决这个问题的目前研究最广泛、应用也最成功的技术。然而,目前的基于伪相关反馈的查询扩展技术存在着缺乏理论框架、不支持多种特征融合、不支持自适应扩展等诸多缺陷,从而大大限制了它们的使用效果和应用范围。本项目力图提出一个能够融合各种特征的查询扩展的理论框架,并利用层次马尔科夫随机场图模型,提出一个能够融合内容和结构特征的具体的查询扩展技术,在此基础上研究自适应的扩展方法。本项目的研究成果不仅具有很强的理论价值,也有重要的实用意义。
Information Retrieval;Query Expansion;Adaptive Query Expansion;Hierarchical MRF;
查询扩展是提高信息检索效果的关键技术,也是信息检索领域的经典研究问题。然而,目前绝大部分研究工作都基于启发式方法,缺乏统一的理论框架。并且很少有研究同时考虑词项依赖关系、词项距离和文档的结构信息进行查询扩展。此外,有关自适应查询扩展的工作也比较少,很多结果虽然提高了平均效果,但是在性能提高的查询比例并不高,也就说方法的鲁棒性不强。针对这些问题,本课题从统一框架、融合各种信息的查询扩展方法、基于查询性能预测的自适应查询扩展等多个方面进行研究,取得了如下成果 (1) 提出了一个统一的查询扩展理论框架G_LCE。该框架基于概率图模型理论导出,具有理论上的依托,能够避免传统启发式方法可解释性差的问题。另外,该框架能够融入各种特征,从而具有良好的扩展性,可以为今后相关研究中新的特征的融入提供支持。 (2) 提出了一个能够支持内容特征(含词项依赖关系和词项距离)和结构特征的基于层次马尔科夫随机场的高性能查询扩展方法HMRF_LCE。具体地,该方法能够支持查询词项之间、文档词项之间、查询词项和文档之间的依赖关系特征、词项之间的距离特征以及词项之间的结构共享特征,从而弥补现有查询扩展方法特征的不足。基于公开标准的语料库上的实验结果表明,该方法的查询扩展性能显著高于基准方法。该工作已经得到20多次国际引用。 (3) 提出了一个查询性能预测方法RDF并基于该方法提出了一个基于查询性能预测的自适应查询扩展方法MRF_ADP。和现有查询性能预测方法相比,RDF考虑了检索结果的相关性,具有更强的解释性,同时该方法的效果优于对比方法。而MRF_ADP从查询的性能预测结果出发,针对不同的结果采用不同的查询扩展策略。实验结果表明,该方法能够显著提高查询扩展的性能。