位置:成果数据库 > 期刊 > 期刊详情页
基于查询词出现的相关度改进
  • ISSN号:1000-0135
  • 期刊名称:《情报学报》
  • 时间:0
  • 分类:G354.4[文化科学—情报学]
  • 作者机构:[1]北京大学信息科学技术学院,北京100871
  • 相关基金:教育部科技发展中心“网络时代的科技论文快速共享研究”项目(2008107); 国家自然科学基金(70903008 60933004); 863课题(2007AA01Z154 2009AA01Z143); CNGI搜索引擎项目(CNGI2008-122)支持
中文摘要:

对信息检索系统返回结果相关度的改进,一直是信息检索领域重要的研究内容。本文首先引入查询词出现信息的概念,随后给出了查询词出现权重的形式化表示,进而将其与BM25模型结合起来。对于查询词出现权重的计算,本文采用了两种方法,即线性加权方法和因数加权方法。我们通过在GOV2数据集上的实验发现,无论哪种方法,通过加入查询词出现权重,都可以有效的改进检索结果的相关度。实验显示,对于TREC 2005的查询,MAP值的改进达到15.78%,p@10的改进达到3468%。本文所描述的方法已经应用到TREC 2009的WebTrack中。

英文摘要:

Considerable research effort has been expended to improve the effectiveness of information retrieval systems.In this paper,we take advantage of information of term occurrence,present formula to compute the weight of term occurrence,and combined it with the BM25 model.To integrate weight of term occurrence into the BM25 model,we use two methods,namely,the linear weighting and the factor weighting.Through GOV2 experimental data set we found that, regardless of which method,by adding weights of query term occurrence,can effectively improve the relevance of search results.Experiments show that,for TREC 2005 queries,MAP values improved by 15.78%,p@10 improved by 34.68%. Methods in this paper have been applied to the Web Track in TREC 2009.

同期刊论文项目
期刊论文 74 会议论文 88 专利 1 著作 2
同项目期刊论文
期刊信息
  • 《情报学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国科学技术情报学会 中国科学技术信息研究所
  • 主编:戴国强
  • 地址:北京复兴路15号
  • 邮编:100038
  • 邮箱:qbxb@istic.ac.cn
  • 电话:010-68598273
  • 国际标准刊号:ISSN:1000-0135
  • 国内统一刊号:ISSN:11-2257/G3
  • 邮发代号:82-153
  • 获奖情况:
  • 1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:19778