动态构造能近似表示数据流的概要结构是数据流处理的核心。目前数据流研究多假设应用中用户主要关心最近时间段内数据流上的数据,因而构造概要时一般采用界标模型、滑动窗口模型或数据衰减模型等三种模型,对较远过去的流历史数据,要么完全放弃,要么被衰减成影响很小。但分析实际的数据流应用可以发现,有许多应用会关心数据流历史数据。本项目通过保存数据流历史窗口的概要,进而提供历史概要组织和管理的有效手段,从而实现数据流历史数据的有效分析和处理。主要研究: (1)概要的归并; (2)概要的分层组织; (3)概要的索引结构; (4)分布式环境中的数据流概要的索引和组织; (5)利用概要的分层组织和索引结构,提供对数据流历史数据的各类分析,包括OLAP分析、相似性分析、相关性分析、kNN查询、聚类分析、趋势分析、频繁项分析和聚集查询等。
Data stream;Synopses;Index;Approximate representation;Hierarchical Data
随着计算机网络和各类电子设备应用的越来越广泛,越来越多的数据以连续的流的形式出现,如网络路由信息,传感器网络采集的实时信号,证券交易、信用卡交易、商场购物交易等的实时记录,因特网网站点击流,电信网络的电话呼叫业务记录,聊天室、短信等的实时文本流等,均产生连续不断的各类数据。这些数据被称为流数据或数据流。因为数据流和传统数据库等系统中处理的数据的巨大差别,迫使研究人员对数据流模型和处理方法进行深入研究。 数据流处理的关键是应用单趟数据扫描算法,建立流数据的概要结构,以便随时能根据该结构提供数据流的近似处理结果。本项目通过保存数据流的概要,进而提供概要组织和管理的有效手段,从而实现数据流数据的有效分析和处理。针对目前数据流应用中典型的概要结构,包括直方图、随机抽样、小波、随机投影和sketch等,本项目主要研究了多个概要是如何归并的、概要的分层组织、概要的索引结构、分布式环境中的数据流概要的索引和组织,并利用概要结构,提供对数据流数据的各类分析,包括相似性分析、相关性分析、Join查询、聚类分析、趋势分析、频繁项分析、Top-k查询、Skyline查询等。