以分布式数据流为背景,针对海量数据挖掘存在的难题,设计一个数据挑选模型。给出一种核心代表点的挑选算法KPSA以及基于核心代表点的分布式数据流挖掘算法GKBC,实现分布式数据流中的增量式聚类挖掘。实验结果证明,该模型和算法可以减少数据通信代价,并保证较高的聚类质量。
以分布式数据流为背景,针对海量数据挖掘存在的难题,设计一个数据挑选模型。给出一种核心代表点的挑选算法KPSA以及基于核心代表点的分布式数据流挖掘算法GKBC,实现分布式数据流中的增量式聚类挖掘。实验结果证明,该模型和算法可以减少数据通信代价,并保证较高的聚类质量。