位置:成果数据库 > 期刊 > 期刊详情页
搜索引擎用户点击行为分析
  • ISSN号:1000-0135
  • 期刊名称:《情报学报》
  • 时间:0
  • 分类:TP393.4[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京大学信息科学技术学院,北京100871, [2]中国科学院资源环境科学信息中心,兰州730000
  • 相关基金:国家自然科学基金重点项目(60435020);教育部博士点基金项目(20030001076);中国博士后科学基金项目(2004036182).
中文摘要:

基于大规模分布式搜索引擎系统——北大“天网”的用户点击记录,本文研究发现:用户点击不同URL的数量遵从Heaps定律,点击URL的频度频级服从类Zipf分布,点击URL与页面大小相关,点击URL具有时间局部性,其顺序具有自相似性特征等一些具有普适性的规律。提出了利用点击日志确定相近查询词的一个新的有效算法。这些研究结果对于掌握用户的搜索行为,完善搜索引擎系统的设计,提高检索服务的效率和质量具有重要的意义。

英文摘要:

Tianwang Search Engine is a large-scale search engine system which is now maintaining index of about 240 millions web pages and 20 millions ftp files. In this paper, we analyze the eliekthrough data in the click log of the WWW search service of Tianwang. The results show that the number of unique URLs selected by users conforms to Heaps law, and the popularity versus rank for the URLs selected by users is well fit by a Zipf-like distribution. The frequency of the URLs selected by users is correlated to their page size. The clicking of URLs also present high degree of locality. For a given query, a new and effective algorithm is presented to find the related queries. All these research results are very important to improve the effectiveness and efficiency of the search engine system and to the research on the search behavior of the users.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国科学技术情报学会 中国科学技术信息研究所
  • 主编:戴国强
  • 地址:北京复兴路15号
  • 邮编:100038
  • 邮箱:qbxb@istic.ac.cn
  • 电话:010-68598273
  • 国际标准刊号:ISSN:1000-0135
  • 国内统一刊号:ISSN:11-2257/G3
  • 邮发代号:82-153
  • 获奖情况:
  • 1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:19778