传统信息检索系统的输入通常是一系列平行的查询词,只能较为粗糙地反映用户的信息需求。在实际应用环境中,用户给出的多个查询词之间往往存在着一定的层次关系,用户实际需求的文档不仅要包含特定的查询词,而且这些查询词在文档中的相对位置还需要满足特定的多重从属关系,即满足查询词级联关系。这种基于查询词间级联关系的信息检索问题称之为高阶信息检索问题,它在一定程度上统一了已有的一些研究方向,如舆情分析、时间链分析、发展趋势分析和文本情感分类等。本课题试图建立统一模型对高阶信息检索问题进行建模和分析,挖掘查询词间的深层次关系,以更通用的方式解决高阶信息检索问题。在该模型中,文档和查询都被抽象为文档张量和查询张量,文档和查询的匹配过程转化为文档张量和查询张量之间的相似度运算,可以更直接地处理在传统信息检索模型中本质上被简化为一阶的高阶信息检索问题。
英文主题词Information Retrieval;Society Network Service Analysis;Wikipedia;Microblog;New Word Detection