位置:立项数据库 > 立项详情页
网络信息检索用户行为可靠性分析关键技术研究
  • 项目名称:网络信息检索用户行为可靠性分析关键技术研究
  • 项目类别:面上项目
  • 批准号:61073071
  • 申请代码:F020511
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:张敏
  • 负责人职称:副教授
  • 依托单位:清华大学
  • 批准年度:2010
中文摘要:

用户行为分析是当前信息检索研究和应用中的一个重要方向。当前研究工作基础是"群体智慧假设"(高频查询中大多数用户的一致行为是可靠的)和"点击相关性假设"(被用户点击的结果与查询相关)。它们随着研究的深入已经不能满足要求1、无法研究互联网检索中占独立同查询总数80%以上的大量非高频查询行为;2、点击行为与相关性并不完全一致,现有工作缺乏对不同行为的有效性和重要性的区分。因此,针对用户行为可靠性的研究由于其必要性及基础性地位开始受到国内外研究和产业界的重视。本项目基于大规模用户日志研究网络信息检索的用户行为可靠性。研究从单次查询点击、独立检索会话(session)、及用户三个层次展开,分析用户检索交互行为模式,特别是深入研究非高频的查询及点击行为,建立多层用户点击行为可靠性模型,构建完整的用户行为可靠性分析框架,并提出有效的融合方法,为信息检索用户行为分析及相关应用研究提供重要基础。

结论摘要:

用户行为分析在信息检索相关研究和搜索引擎应用实践中是一个非常重要的课题。然而用户行为数据中存在大量的噪声用户行为具有随意性,不同用户的可信程度也有所区别,还存在大量的作弊点击行为等。文档被用户“点击即相关”的假设也不完全成立。此外,传统的用户行为分析工作都针对高频查询展开,无法解决数据稀疏的长尾查询中的问题。因此,随着相关研究和实践的深入开展,用户行为可靠性分析的重要性和必要性就凸显了出来,而对低频查询的分析也成为一个不可回避的问题。本项目面向信息检索开展了用户行为的可靠性分析。项目研究按照预定的计划顺利完成。研究工作从四个方面展开(一)多粒度多层次的用户行为可靠性分析从查询粒度、用户点击粒度、会话(即用户一个需求下的全部查询点击)粒度分别进行用户行为可靠性分析,在每个层次上提出了相应的可靠性分析计算模型。(二)用户可靠性的建模根据用户在找到相关文档的能力差异、搜索行为偏好差异、使用搜索引擎的专家程度差异等三个角度,对用户的可靠性进行建模。(三)基于用户行为可靠性的模型构建及应用基于上述多层次和多粒度的用户行为可靠性分析,针对检索和推荐两个应用问题,分别建立了长尾查询的检索模型和基于可靠性的协同过滤推荐模型。(四)基于用户行为可靠性的评价,包括用户点击作弊识别,以及针对信息检索中的难点问题——长尾查询——的自动性能评价。通过上述研究工作,实现了从意图理解、查询点击、检索、评价整个环节上的用户行为可靠性研究。本项目的特色与创新之处在于1、从查询、点击、会话等多个粒度建立了用户行为可靠性分析的完整框架并建立了可计算的模型,特别是在框架中引入了用户的可靠性这一概念,全面深入地分析了用户行为的可靠性,研究成果可以成为整个用户行为分析研究工作的基础。2、针对长尾查询的用户行为可靠性这一难点问题进行了深入分析,从查询意图理解、查询推荐与改写、检索排序方法以及性能评价等各个环节,建立了相应的模型,最终改进了基于可靠性分析的长尾查询的检索性能。3、结合心理学研究方法和实验手段,对用户检验行为、用户搜索偏好等进行了深入的分析,并提出了新的点击模型,这是计算机科学与心理学在网络信息检索的一个成功的研究交叉。4、所提出的方法在获得研究界较高评价与认可的同时,在中文商业搜索引擎搜狗的大规模在线服务中也得到了成功应用,显著提高了搜索引擎性能,表明了所提出方法的真实有效性。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 30
  • 35
  • 10
  • 0
  • 0
会议论文
张敏的项目
期刊论文 7 会议论文 5