针对快速更新的大规模流数据,应用数据挖掘技术,以发现趋势、模式或异常是目前很多领域中的一个十分重要、迫切的问题。已有的流数据挖掘模型因为局限于具有固定形式的时序区间,不能完备、精确地表达应用领域所需要的知识;针对这些模型所提出的数据挖掘算法对领域所需要的知识来说也不具备完备性。本课题面向大规模流数据,针对目前该领域存在的非完备性问题,对流数据挖掘模型与相应挖掘方法进行研究。具体内容包括1)研究支持可变区间的完备性数据挖掘模型;2)基于上述模型,分别针对三类具体数据挖掘问题研究高效、有效的挖掘方法;3)研制一个流数据管理与挖掘的原型系统。本课题的完成一方面将会推动流数据挖掘理论与方法以及动态数据挖掘理论与方法的发展;另一方面还会丰富多种相关领域中数据挖掘的应用;同时,针对这类基础性问题的深入研究将有可能为该领域开辟更为广阔的研究空间。
目前,流数据因其在诸多应用领域中的广泛存在而受到越来越多的关注。将数据挖掘技术应用于快速更新的大规模的流数据,以发现其中所蕴含的趋势、模式或异常是目前很多领域中的一个十分重要、迫切的问题。本项目针对流数据挖掘中的完备性问题,重点考察了流数据中的数据挖掘模型定义、模型选择、数据表示与相似度量三个方面上该问题的体现,对完备的频繁模式挖掘、流数据分类、流时间序列的表示与相似度量三个具体问题进行了研究。取得的主要成果包括1)提出了完备的频繁模式挖掘模型以及相应的高效挖掘算法2)提出了具有理论保证的概念抽样准则以及相应的抽样算法3)流时间序列相似度量的改进模型。理论分析和实验分析表明,这些工作可以提高针对流数据以及其它动态数据的数据挖掘过程的效果和效率,并扩展了流数据挖掘在实际中的应用。