许多应用具有典型的分布式数据流特征。和单数据流的模式挖掘相比,分布式数据流需要分布式的挖掘构架,由此带来的理论和方法上的问题需要解决。本项目研究了分布式数据流的形式化方法、分布式数据流的集成模式学习模型、节点级(单数据流)的局部模式更新算法、分布式数据流的全局模式挖掘模型与算法、面向于数据到达不均匀的分布式数据流的概念漂移挖掘算法等问题。利用密度网格、支持向量机以及微簇等先进技术,解决了分布式数据流的全局分类以及聚类等问题;利用数学和人工智能等手段,研究了分布式数据流的形式化表示及挖掘模型构造;利用统计学和已有的数据挖掘技术等,探索了分布式数据流的全局模式发现模型和算法构造等。实验说明我们提出的方法能很好地适应分布式数据流模式挖掘的需要,有较高的精度或者效率。
英文主题词distributed data stream; ensemble learning; concept drifting; global classification; global clustering