目前基于语义的扩展查询已成为研究热点,但存在的主要问题是概念扩展查询技术先扩展查询词再检索,是从词级层次来扩展查询语句,尚不能从句子摘要层次语义上支持查询语句的复述,也不能从篇章层次语义上消除语义不相关的检索结果,这限制了查询扩展在搜索引擎中的实用化。本项目把自然语言处理领域中复述理论和人工智能领域中云模型理论结合到信息检索领域中的概念扩展查询技术。其研究内容和特色包括①提出了 "概念的语义指纹"中不确定性特征的获取方法,补充和完善了概念的语义形式化描述;②引入了"句子摘要"语言单元,提出句子摘要级的复述方法,提高了计算机对查询语句的语义理解能力;③提出基于语义指纹的文本检索方法,将"基于语义知识库的方法"和"基于潜在语义分析的方法"有机结合,取长补短。研究成果将不仅有意义于搜索引擎中概念扩展技术的实用化,而且为将来再深入探索支持概念扩展的网络媒体监控技术奠定前期的理论和实现基础。
Information retrieval;Conceptual expansion;Paraphrase;Cloud model;
本项目把复述理论和云模型理论结合到信息检索领域,深入研究支持查询语句复述的概念扩展查询中的若干科学问题。2011年1月至2013年12月,我们按照项目计划书完成了“支持查询语句复述的概念扩展查询方法研究”的国家自然科学基金项目。在项目的实施过程中,我们围绕如何定量地表示概念中的不确定性知识,如何从句子摘要层次语义上复述出查询语句的扩展结果,以及如何从篇章层次语义上检索文本等开展研究,并提出了针对性的解决方案。 针对概念的数字特征获取,我们用云模型理论挖掘“概念的语义指纹”中蕴含的不确性知识,提出多种基于云模型的特征获取方法。这些方法不仅能够定性定量地挖掘出查询词所属概念中的云数字特征,而且能够将特征映射成函数,以函数形式化方式将不确定性知识融入到文本信息检索模型中,从而补充了概念的语义指纹形式化表征方法。 针对面向查询语句的复述,我们提出了面向查询语句的概念跃升方法和复述搭配方法。这些方法不仅将查询词(较低粒度)层次的云数字特征概念跃升出查询语句(较高粒度)层次的云数字特征,来定量地表征句子摘要层次的不确定性知识;而且对概念扩展出的候选复述搭配集合,综合多方面语义知识给出复述搭配过滤规则,过滤并筛选出符合语义的扩展结果。它有效地感知查询语句中蕴含的不确定性语义知识,能辅助提高文本信息检索系统对查询语句的语义理解能力。 针对面向篇章语义的检索,我们将语义知识的显式表征方法和潜在语义分析方法相结合,提出了多种基于主题模型的语义检索方法。这些方法在文档和主题之间增加一个由语义指纹表征的标签层,将基于显式表征的语义知识融入到传统的基于“词袋”的潜在语义分析方法,来消除篇章语义不相关的检索结果文档,辅助提高文本信息检索系统对文档的主题识别能力。