流数据是近年来新出现的一种数据类型,在WEB挖掘、信息安全和物联网等许多应用领域出现频繁,其特征空间的高维性弱化了机器学习算法的泛化能力。特征抽取技术将高维空间变换到低维空间,能够较好的解决高维性问题;但现有的流数据特征抽取算法对流数据的动态性特点解决不好。流数据的动态性主要体现于概念漂移和特征集迁移现象。针对这一问题,本项目主要从流数据的特点入手,研究流数据的特征抽取问题;结合样本加权和时间窗口技术提出解决概念漂移问题的增量式特征抽取算法,将特征选择与特征抽取相结合提出特征集动态更新的增量式特征抽取算法,并提出一套适应流数据特点的特征抽取的新思路和新算法。新算法将提升在高维特征空间情况下的流数据的学习效果,特别是明显存在概念漂移和特征集迁移现象的流数据上的性能。
Incremental Learning;Partial Least Squares;Streaming Data;Dimension Reduction;Feature Extraction
随着流数据在互联网数据挖掘等许多大规模数据应用领域频繁出现,其特征空间的高维性弱化了传统学习算法的泛化能力。特征抽取技术将高维空间变换到低维空间,能够较好的解决高维性问题;但现有的增量式特征抽取算法对大规模数据的动态性特点解决不好。数据动态性主要体现于概念漂移和特征集迁移现象。针对这一问题,本项目主要从大规模数据的特点入手,研究增量式特征抽取算法;开展的具体研究工作包括1)设计了单因变量增量式偏最小二乘降维模型,2)提出了一种改进的增量式主成份分析算法,3)对已有的冗余特征选择算法进行了较为详细的对比分析,4)提出了一种新的基于邻近样本的可区分性的冗余特征检测算法。本项目提出的新算法和模型在高维特征空间情况下的大规模数据分析中表现出了优良的学习效果。