东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

一种高效的数据流挖掘增量模糊决策树分类算法

ISSN号：0254-4164
期刊名称：《计算机学报》
时间：0
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]国防科学技术大学计算机学院,长沙410073, [2]北京航空航天大学计算机学院,北京100083, [3]德雷塞尔大学信息科学与技术学院,费城美国
相关基金：本课题得到国家自然科学基金（60573057）资助

关键词：数据流, 线索化二叉排序树, 连续属性, 模糊离散化, 增量, VFDT, data streams, threaded binary search tree, continuous arribute, soft discretization, incremental, VFDT

中文摘要：

数据流具有数据持续到达、到达速度快、数据规模巨大等特点，这些都给数据流挖掘领域的研究工作带来了新挑战，而其中分类算法更是当前的研究热点．Domingos等在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题．Gama等对VFDT进行扩展并实现了VFDTc，使系统能够处理连续属性．Peng等在传统数据挖掘环境下提出了基于模糊理论的连续属性平滑离散化方法．基于前述工作，作者设计并实现了一种基于线索化排序二叉树的增量模糊决策树分类算法fVFDT，其主要贡献有如下4点：（1）第一次设计并实现了数据流上的基于线索化二叉排序树（TBST）的连续属性处理方法．相比VFDT，fVFDT的样本插入时间复杂度由O（n^2）降低到O（nlogn）．当新样本到达时，VFDTc需要更新O（10gn）个属性节点，而fVFDT只需要更新相应的一个节点即可；（2）改进了VFDTc连续属性的最佳划分节点选取的计算方法，使其时间复杂度由O（nlogn）降低到0（n）；（3）根据Fayyad等的研究成果，相比VFDTc，fVFDT只需从更少的备选划分节点中选取最佳节点，备选划分节点数由0（n）降低到0（10gn）；（4）改进了传统数据挖掘环境下的基于模糊理论的连续属性平滑离散化方法，有效地处理了噪声数据，很好地提高了分类精度．

英文摘要：

Decision tree classification is a well-studied problem in data mining. Recently, there has been much interest in mining data streams. Domingos and Hulten have presented a one-pass algorithm. Their system, VFDT, uses Hoeffding inequality to achieve a probabilistic bound on the accuracy of the tree constructed. Gama et al. have extended VFDT in two directions. Their system VFDTc can deal with continuous data and use more powerful classification techniques at tree leaves. Peng et al. present soft discretization method to solve continuous attributes in data mining. This paper revisits this problem and implemented a system fVFDT on top of VFDT and VFDTc. It has the following four contributions.- （1） It presents a threaded binary search trees （TBST） approach for efficiently handling continuous attributes. It builds a threaded binary search tree, and its processing time for values inserting is O（n log n）, while VFDT＇s processing time is O（n^2）. When a new example arrives, VFDTc need update O（logn） attribute tree nodes, but fVFDT just need update one necessary node. （2） It improves the method of getting the best split-test point of a given continuous attribute. Comparing to the method used in VFDTc, it improves from O（nlogn） to O（n） in processing time. （3） Comparing to VFDTc, fVFDT＇s candidate split-test number decrease from O（n） to O（logn）. （4） It uses soft discretization method in data streams mining to solve the problem of noise data.

同期刊论文项目

数据挖掘中若干类关键算法的研究

期刊论文 20

同项目期刊论文

Java源代码字节码剽窃检测方法及支持系统

在线挖掘数据流滑动窗口中最大频繁项集

用描述逻辑进行语义Web服务组合

CBC-DS：基于频繁闭模式的数据流分类算法

基于P2P系统的DDoS攻击及其防御技术研究综述

基于时间序列分析的网络流量预测模型研究

高性能网络爬虫：研究综述

一种基于线索化二叉排序树的数据流挖掘的决策树分类新算法

蛋白质相互作用研究中的计算方法综述

二进制立方形递归网络的拓扑结构

基于σ选择MOEA的微阵列数据三维聚类挖掘

基于神经网络技术的股票频谱分析

最小组合法挖掘最大频繁集

一种基于模糊聚类的文本挖掘新方法

微阵列数据癌症分类问题中的基因选择

数据流挖掘分类技术综述

利用粗糙集理论检测和诊断液体火箭发动机故障

微阵列数据的多目标免疫优化双聚类

基于聚类语言模型的生物文献检索技术研究

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433