Web已成为人们获取信息的主要来源,搜索引擎是获取这些信息的重要途径,但Web上的数据过去与现在、有效与无效并存,这造成检索结果中包含大量过时、失效信息。如何甄别信息的时效性并保证检索结果的有效性成为一个日益重要的研究问题。本项目针对Web网页的特点及信息检索的需要,系统研究Web网页时效性评价及其在网页排序应用中的基础理论和关键技术,主要包括探讨网页时效性的机理特征,研究时效性度量特征的感知、推断与量化的方法,以及基于多特征的时效性评价方法;研究基于时间的查询理解和分类算法,查询与网页的时间相关度计算方法,时效性敏感的网页重要度计算方法;最后融合以上各项研究成果实现新型的网页排序算法。本项目的最终目标是减少搜索引擎检索结果中的大量过时、失效信息,提高人们获取信息的效率和质量,同时为网页时效性在实时检索、Web信息可信性判别等其它领域的应用研究提供新的思路、理论方法和技术支撑。
information timeless;temporal intent of query;query classification;page rank;search result diversification
搜索引擎是当前人们获取信息的主要来源,研究Web信息与用户查询的时效性,并结合两者返回有效的、高质量的检索结果是搜索引擎设计的关键问题之一。本项目根据拟定的研究计划,研究了Web信息的时效性判别、用户查询的时效性意图识别及分类,并融合两者提出了新型的综合语义和时效性意图的检索结果多样化方法。具体的研究成果如下首先,系统研究网页的时效性判别,提出了网页时效性特征时间的自动提取及评价方法。其次,研究了时间敏感的查询理解,提出了一种基于时效性意图的用户查询分类法,给出了基于机器学习的时间敏感的查询分类算法。最后,研究了时效性敏感的网页排序算法,提出了综合语义和时效性的新型检索结果多维度多样化排序算法。项目开展期间完成标注基金资助的论文23篇(含录用待发表4篇),其中SCI检索5篇,EI检索18篇,ISTP检索3篇,新申请专利1项。