实时数据流中动态模式的发现与跟踪是将带有时间标记的数据流作动态分析,发现数据流中有意义的模式并且跟踪模式的变化,这是一种从实时数据流中获取知识的重要方法和技术。本研究拟采用一种基于衰减窗口技术的实时数据流网格聚类方法,发现实时数据流中的模式,并保存随时间变化的模式,通过对多个模式的快速对比分析,实现跟踪模式的变化过程。在模式发现和跟踪算法的实现中,设计一种密度维度树的数据结构以及相应的剪枝策略,实现降低算法的时空消耗并且提高模式发现与跟踪的效率。最后,我们将集成阶段性研究成果,设计并实现一种适合于实际应用背景的动态模式发现与跟踪的算法系统,并对算法的性能进行实验分析和评价。本研究将为实时数据流的数据挖掘提供新的方法。
real-time data stream;grid clustering;pattern discovery and tracking;data mining;
实时数据流中动态模式的发现与跟踪是将带有时间标记的数据流作动态分析,发现数据流中有意义的模式并且跟踪模式的变化。本研究采用了一种基于衰减窗口技术的实时数据流网格聚类方法,发现实时数据流中的模式,并以快照方式保存随时间变化的模式,通过对不同快照的快速对比分析,实现跟踪模式的变化过程。在模式发现和跟踪算法的实现中,设计一种密度维度树的数据结构存储快照及其模式;采用剪枝策略降低算法的时空消耗;提出了一种聚类的边界检测方法提高聚类的精度。在此基础之上,同时采用增量聚类技术,充分利用现有的聚类结果和新近到达的数据流进行聚类,增强了算法的聚类能力,提高了模式发现与跟踪的效率。最后,实现了一个动态模式发现与跟踪的算法系统。本文所提出的算法在钢铁企业生产过程和钢板质量检测中取得了良好的应用效果。本研究为实时数据流的数据挖据提供了新的方法。