位置:成果数据库 > 期刊 > 期刊详情页
基于在线迁移学习的重现概念漂移数据流分类
  • ISSN号:1000-1239
  • 期刊名称:《计算机研究与发展》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]桂林电子科技大学计算机与信息安全学院,广西桂林541004, [2]广西可信软件重点实验室(桂林电子科技大学),广西桂林541004, [3]广西信息科学实验中心(桂林电子科技大学),广西桂林541004, [4]河北科技大学信息学院,石家庄050018
  • 相关基金:国家自然科学基金项目(61363029,U1501252); 广西区自然科学基金项目(2014GXNSFAA118395); 广西区科学研究与技术开发项目(桂科攻14124005-2-1); 广西信息科学中心项目(YB408)
中文摘要:

随着大数据时代的到来,数据流分类被应用于诸多领域,如:垃圾邮件过滤、市场预测及天气预报等.重现概念是这些应用领域的重要特点之一.针对重现概念的学习与分类问题中的"负迁移"和概念漂移检测的滞后性,提出了一种基于在线迁移学习的重现概念漂移数据流分类算法——RC-OTL.RC-OTL在检测到概念漂移时存储刚学习的一个基分类器,然后计算最近的样本与存储的各历史分类器之间的领域相似度,以选择最适合对后续样本进行学习的源分类器,从而改善从源领域到目标领域的知识迁移.另外,RC-OTL还在概念漂移检测之前根据分类准确率选择合适的分类器对后续样本分类.初步的理论分析解释了RC-OTL为什么能有效克服"负迁移",实验结果进一步表明:RC-OTL的确能有效提高分类准确率,并且在遭遇概念漂移后能更快地适应后续样本.

英文摘要:

At the age of big data,data stream classification is being applied to many fields,like spam filtering,market predicting,and weather forecasting,et al,in which recurring concept is an important character.Aiming to reduce the influence of negative transfer and improve the lag of detection of concept drift,RC-OTL is proposed for mining recurring concepts in data stream based on online transfer learning strategy.When a concept drift is detected,RC-OTL selects one current base classifier to store,and then computes the domain similarities between the current training samples and the stored classifiers,in order to select the most appropriate source classifier to combine with a new classifier for learning the upcoming samples,which results in knowledge transfer from the source domain to the target domain.In addition,RC-OTL can select appropriate classifier to classify when the current classification accuracy is detected below a given threshold before concept drift detection.The preliminary theory analysis explains why RC-OTL can reduce negative transfer effectively,and the experiment results further illustrates that RC-OTL can efficiently promote the cumulate accuracy of data stream classification,and faster adapt to the samples of new concept after concept drift takes place.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349