流数据是广泛存在的一种数据形式,而聚类与预测则是流数据挖掘领域的重要研究内容。针对流数据的复杂性,借鉴生态系统中生物的协作与竞争机制,提出了协同学习模式下流数据聚类与预测联合实现的新方法。由于考虑了数据间的耦合关系以及联合实现了聚类与预测,因此该方法能够准确地捕获和刻画流数据的内蕴规律,并提高聚类与预测方法的性能。主要研究内容包括以数据的耦合关系为基础,在分立与合作的原则下,研究流数据动态表达网络的构建方法,从而建立流数据的协同机制;研究隐马尔科夫模型与动态表达网络的关系,给出其结构和参数的在线学习方法,在协同机制的基础上构建动态变结构的隐马尔科夫模型,为流数据的协同挖掘提供一个普适的模型;提出以动态表达网络作为共享的计算资源结构,并以动态变结构隐马尔科夫模型为基础,研究流数据的在线聚类与预测的联合实现。本项目的研究有望为流数据的挖掘提供新的思路和新的方法。
stream data;complex network;cluster;prediction;
流数据是广泛存在的一种数据形式,明确其聚类结构以及演化机制对于揭示流数据的动态性以及复杂性具有重要的意义。本项目针对流数据的复杂性,提出了在复杂网络背景下研究流数据的聚类以及预测的新方法,可以为流数据以及时间序列分析提供了一个新的框架。由于复杂网络可以从实体相互作用的角度重新表达和刻画流数据,因此该方法能够更加准确的捕获和理解流数据的内蕴机制和规律。具体的研究内容包括通过相空间重构与实体提取,并结合相似性度量,给出流数据的复杂网络重构方法;基于平稳小波分解,给出了时间序列的多尺度复杂网络重构方法;提出了一种基于修改核函数的分类改进算法,提高了分类性能,该方法可应用于复杂网络的链路预测;复杂网络的单元功能往往呈现层次结构,基于这一特性,提出了复杂网络聚类的一种新方法;基于最小二乘支持向量机,提出了一种时间序列的非线性行为的学习及建模方法;针对节点聚类和社团结构的关系,基于核矩阵最大特征值对应的特征向量, 提出了一种新的中心性方法;提出了静态以及动态网络中特殊结构的发现和挖掘方法,其中包括网络中的模体以及动态网络中的显著子结构;针对流数据预测和动态网络拓扑结构的对应关系,提出了一种动态网络拓扑结构的预测方法。本项目的研究成果有望为流数据的分析提供新的思路和理论依据。就上述内容,本项目取得了一系列重要成果,共发表学术论文16篇,其中10篇被SCI收录,9篇被EI收录,另外培养了2名青年教师和4名研究生。