位置:成果数据库 > 期刊 > 期刊详情页
基于百度搜索日志的用户行为分析
  • ISSN号:1000-386X
  • 期刊名称:计算机应用与软件
  • 时间:2013.7.13
  • 页码:17-20
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101
  • 相关基金:国家自然科学基金项目(61171159); 国家科技支撑计划课题(2011BAH11B03); 北京市教委科技发展计划项目(KM201110772021,KM201211232023)
  • 相关项目:网页内容真实性评价研究
中文摘要:

基于大规模搜索日志进行用户行为分析有助提高搜索引擎的各种性能指标。从三个方面对百度开放日志进行详细分析。首先对查询串长度和频次进行统计,发现查询串中存在着长尾效应,前10%最常用查询串的查询次数占总查询次数的70.8%。其次对URL点击深度和频次进行分析,发现有73%的网页只被点击一次,表明互联网中存在着大量低频访问网页。最后对用户使用高级检索情况进行分析,发现有不足0.12%的用户使用高级检索,表明用户更喜爱简单方便的操作。

英文摘要:

Analysing user behaviour based on large-scale search logs contributes to improving various performance indexes of search engines. In this paper we make detailed analyses on Baidu search logs from three aspects. First, the statistics of query string length and frequency show that the long tail effect exists in query strings, top 10% of queries with high frequency account for 70.8% of total queries. Second; the analyses on depth and frequency of URL clicks show that 73% of the web pages are clicked once only, this illustrates that there are a lot of low frequency web pages. Finally, the analyses on users advanced search show that less than O. 12% of the users use this function, and the simple operation is more preferable by the users.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463