位置:成果数据库 > 期刊 > 期刊详情页
Web日志挖掘中数据预处理技术的研究
  • ISSN号:1673-629X
  • 期刊名称:《计算机技术与发展》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080
  • 相关基金:国家自然科学基金项目(60736014)
中文摘要:

数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。

英文摘要:

Data preprocessing plays an essential role in the process of Web log mining,directly influenced the quality of the Web log mining and its results.Analyses data preprocessing process for Web log mining in detail,proposes an improved method of data cleaning,to improve the efficiency in data preprocessing of log mining,and proposes an improved method of session identification to Web log data preprocessing.The threshold is adjusted by the page weightness based on site's structure after the user identification.Then,delete the link pages and uninterested pages based on the user's interest degree of page content.Experimentally,the approach proposed can decide the access time threshold more accurately.It is more reasonable and effective.

同期刊论文项目
期刊论文 77 会议论文 94 专利 4 著作 2
同项目期刊论文
期刊信息
  • 《计算机技术与发展》
  • 中国科技核心期刊
  • 主管单位:陕西省工业和信息化厅
  • 主办单位:陕西省计算机学会
  • 主编:王守智
  • 地址:西安市雁塔路南段99号
  • 邮编:710054
  • 邮箱:ctad@vip.163.com
  • 电话:029-85522163
  • 国际标准刊号:ISSN:1673-629X
  • 国内统一刊号:ISSN:61-1450/TP
  • 邮发代号:52-127
  • 获奖情况:
  • 《CAJ-CD规范》执行优秀期刊
  • 国内外数据库收录:
  • 中国中国科技核心期刊
  • 被引量:21263