当前跨语言信息检索主要采用"查询翻译+基于伪反馈技术的单语检索"方法,远未达到完美的查询翻译严重影响随后的基于伪反馈技术的单语检索的效果,导致跨语言信息检索性能不足。本课题以汉英跨语言信息检索为对象,提出了基于双语参考文档反馈的跨语言信息检索,该方法将双语参考文档引入跨语言信息检索建模过程,在未进行查询翻译的情况下,在目标语上完成查询建模,并与传统的跨语言信息检索方法相融合,提高了检索性能。鉴于大规模双语对齐文档是本课题成功的关键因素之一,开展了从互联网获取大规模双语平行语料的工作,综合采用多种方法,获取了GB级大规模双语对齐语料。经过研究,提出了跨语言信息检索的新方法、建立了新模型,并构建了跨语言信息检索系统,课题组在TEL@CLEF 2009跨语言信息检索评测中获得第二,表明了课题组在跨语言信息检索研究方面的实力。共发表论文26篇,其中中国计算机学会推荐投稿的A类国际顶级会议2篇(SIGIR Poster和Workshop各1篇),其它重要国际会议13篇,国际期刊7篇,国内核心刊物5篇;SCI检索1篇,EI检索17篇。出版专著、教材2部。待授权发明专利3项。
英文主题词cross language information retrieval; pseudo relevance feedback; bilingual corpus feedback; reference document model