文本检索系统的查询条件和文档集都是由自然语言构成的。由于传统文本检索系统本质上只是将文本看作一组无序词串,利用简单的词频统计来模糊计算相关性,因此,传统检索系统面临许多无法解决的问题。同时,一些研究表明将相对复杂和精确的自然语言处理(NLP)技术直接(浅层)应用于传统检索系统并不能带来性能的明显的改善。本申请书提出的基于NLP的高精度文本检索模型研究,是以NLP技术与信息检索中的语言模型方法的深层次融合为出发点,主要探讨不同于传统IR模型的能够融入NLP技术的新的语言模型检索方法,研究这些不同层次的NLP技术对IR性能的影响,并期望在比较后获得相对最佳的融合模型。本项目试图建立NLP与IR之间的紧密的联系,来系统地揭示一些客观现象,而这在国内尚属空白。