跨多个数据源发现全局性的复杂模式是数据挖掘领域的一个挑战性课题。本项目针对数据流的来源多样化问题,研究多数据流背景下的复杂模式挖掘模型。我们的研究尝试构造一个能够关联多数据流上的信息以挖掘全局性的复杂模式的模型,该模型既要解决传统数据流挖掘所面临的大规模流动数据和概念漂移问题,又要解决多数据流上的流速不一致、信息异构和挖掘需求多样化问题。针对以上问题,本项目的主要研究内容包括(1)关联异步数据流;(2)关联异构信息数据流;(3)关联概念漂移的数据流;(4)构建多数据流上的共享挖掘模型。基于多数据流关联挖掘的研究涉及到三网融合、信息安全、情报分析、商业智能等诸多领域,具有重要的理论价值和应用前景。
在基金支持下,项目负责人按照项目计划书中既定的研究任务开展了研究工作,完成了既定的研究目标。此外,还在实际工作中对原计划的研究内容进行了更深层次的拓展。过去三年中,共发表论文20篇,其中SCI期刊5篇,主要会议论文15篇,部分论文连续发表在数据挖掘主要期刊和会议TKDE, KDD, ICDM和SDM上。在基金的支持下,课题负责人以网络多通道流量和社会媒体数据流为数据基础,以网络信息管理为主要研究任务,开展了面向多源数据流挖掘的一系列研究工作,主要进展包括1)提出针对微博短文本流的频繁项挖掘算法H-Stream,可以在GB/s高速网络流中完成实时热点词发现任务,该成果发表在网络信息管理重要会议CIKM 2011 和计算科学基础会议ICCS 2012 上; 2)提出数据流集成模型的索引结构E-Tree和SVM-Index, 在100ms内完成对网络流上的多通道规则( 量级为103 )的快速判断,相关成果发表在数据挖掘重要期刊和会议TKDE(接收), KDD-11,ICDM-12和ICDM-13上; 3)提出云平台高维数据流查询索引结构LCN-Index, 可以支持100ms内对GB/s级网络流上的过滤规则 (量级为103、维度为102)的快速判断。该成果发表在2011网络信息管理重要年会CIKM 2011 ; 3)提出多数据流异步、异构和动态变化的一揽子解决方案,包括数据填充、流量去噪和复杂集成模型研究,相关成果发表在ICDM, CIKM, Decision Support Systems等一系列重要期刊和会议中。以上研究成果也进一步应用在中科院战略先导专项、973和863等重大项目中。在基金支持下,项目负责人在中科院信工所组织了一个10余人的研究团队,团队成员多次出访美国和澳大利亚院校,共同发表高水平学术论文。此外,项目负责人先后带队参加数据挖掘三大主流会议KDD, ICDM 和 SDM会议,还在相关国际会议ICTAI, APWeb和ITQM上组织专题讨论会3次。此外,项目负责人连续3年为IEEE Trans. on Knowledge & Data Engineering (TKDE)等多个数据挖掘期刊(数据流计算方向)审稿。项目负责人还在Springer近期创办的国际期刊《Journal of Big Data (JOBD)》担任编委(Editorial