位置:成果数据库 > 期刊 > 期刊详情页
基于群体智慧的Web访问日志会话主题识别研究
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:35-40
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹),清华大学计算机系,北京100084
  • 相关基金:自然科学基金资助项目(60736044 60903107); 高等学校博士学科点专项科研基金资助项目(20090002120005)
  • 相关项目:基于网络用户行为分析的垃圾网页识别方法研究
中文摘要:

Web访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话主题(topic)是指会话中具有相同用户意图的部分。从会话中进一步识别出能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,该文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题识别算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。

英文摘要:

A session in Web access log denotes a continuous-time sequence of user's Web browsing behavior.A topic of a session represents a hidden browsing intent of a Web user.It is fundamental to identify several topic-based log units from a session.Existing work mainly focuses on detecting boundaries without considering the common situation in which different topics often overlap in one session.In this paper,we first re-define the concept of session and topic,and then the task of largest segmentation is proposed.We further design the session topic identification algorithm based on crowd wisdom of Web users.The effectiveness of the algorithm is validated by the experiments performed on large scale of realistic Web access logs.

同期刊论文项目
期刊论文 49 会议论文 19 获奖 1 著作 1
期刊论文 117 会议论文 76 专利 12 著作 3
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136