位置:成果数据库 > 期刊 > 期刊详情页
机器学习的查询扩展在博客检索中的应用
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:99-102
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]复旦大学计算机科学与技术学院,上海200083
  • 相关基金:基金项目:国家自然科学基金资助项目(60673038,60503070)
  • 相关项目:中文文本情感倾向挖掘技术研究
中文摘要:

该文介绍一种新的查询扩展方法,该方法结合了查询扩展技术和机器学习理论。通过机器学习的方法挑选出查询扩展词,以此提高检索结果的性能。对于输入的查询项,首先通过伪反馈技术生成候选扩展词集合,然后使用支持向量机对输入的候选词评分,挑选得分较高的候选词和原始查询项组成一个新的查询项。由于训练这个支持向量机的训练数据较难获得,我们利用评测会议的检索结果和检索工具自动地生成训练数据。这套查询扩展方法的优点在于通过对训练语料的学习.能够对候选扩展词作出更合理的选择。在TREC评测会议组织的观点检索任务中,相对于不采用任何扩展技术的基准系统,该方法提高了MAP指标33.1%。

英文摘要:

A novel query expansion approach is presented in this paper, which applys the machine learning technique to the query expansion It improves the retrieval performance by training a machine learning modular to predict and select the query expansion words. With the pseudo-relevance feedback, a set of candidate expansion words are generated for a certain topic. Then a Support Vector Machine (SVM) judges on these candidate words and forms an optimized query by selecting the top candidate words. To train such a SVM for query word judgment is difficult because the training data set is unavailable. This issue is resolved by generating the training data set via the retrieval results and evaluation tools available. In the opinion retrieval task of BLOG TRACK held by the TREC conference, we use this query expansion method to improve the Mean Average Precision (MAP) by 33.1% compared with the baseline result.

同期刊论文项目
期刊论文 8 会议论文 15 专利 2
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136