东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

分布式数据流关系查询技术研究

ISSN号：0254-4164
期刊名称：《计算机学报》
时间：0
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：中国人民大学信息学院,北京100872
相关基金：国家自然科学基金（61379050,91224008）; 国家“八六三”高技术研究发展计划项目基金（2013AA013204）; 高等学校博士学科点专项科研基金（20130004130001）; 中国人民大学科学研究基金（11XNL010）资助

关键词：大数据, 数据流, 流处理系统, 流查询系统, 关系查询技术, big data, data stream, stream processing system, stream query system, relationalquery technique

中文摘要：

随着在线分析连续数据流的需求日益增多,用于实时处理海量、易变数据的数据流管理系统由此产生.大数据时代下,随着开放式处理平台的发展,为处理大规模且多样化的数据流,出现了若干分布式流处理系统,如S4、Storm、Spark Streaming等.然而,为提升处理系统的易用性和处理能力,需要在其之上构建具有抽象查询语言的关系查询系统,以构筑完整的分布式数据流管理系统.如何设计并实现高效易用的关系查询系统是一个亟待解决的问题.文中首先概述了分布式数据流查询处理的典型应用、数据特征和实现目标.进而,提出了分布式数据流关系查询系统的基础架构,并基于此架构深入分析了用户自定义函数查询、查询优化、驱动方式、编译技术、算子管理、调度管理和并行管理等关键技术.然后,对比分析了SPL、StreamingSQL、Squall和DBToaster这4种具有代表性的查询系统实例.最后,指明了该技术在优化技术、执行策略、实时精准查询和复杂查询分析等方面所面临的挑战和今后的研究工作.

英文摘要：

The applications that require online processing continuous data stream are increasing. Data stream management systems which are used to deal with massive and variable data in real time have been produced. With the development of open processing platforms in the ear of big data, a number of distributed data stream processing systems have emerged for dealing with large scale and diverse data stream, such as s4, Storm, Spark Streaming, etc. However, we should construct relational query systems which have abstract query language on basis of the processing systems for improving the ease of use and processing capability of them, so as to build complete distributed data stream management systems. How to design and realize the high efficiency and easy-to-use query systems is a great challenge. In this survey, we first provide an overview of typical applications, data characteristics and achieve goals of distributed data stream query processing. Furthermore, we propose the framework of distributed data stream relational query systems. Based on the framework, we analyze the key techniques in several aspects. UDF query, query optimization, query-driven approaches, compiling techniques, operator management, scheduling management and parallel management. Then, there is the comparison of representative query systems including SPL, StreamingSQL, Squall and DBToaster. Finally, some new challenges are put forward, including optimization technique, execution strategy, real-time precise query and complex query analysis.

同期刊论文项目

非常规突发事件应急管理基础科学问题与“情景-应对”型总集成升华平台研究

期刊论文 29

面向移动用户的Web数据集成技术研究

期刊论文 14

同项目期刊论文

差分隐私下一种精确直方图发布方法

社会计算：大数据时代的机遇与挑战

面向ScholarSpace知识库的关键词查询方法

云环境下的Max／Min在线聚集技术研究

海量高维向量的并行Top-k连接查询

面向数据发布和分析的差分隐私保护

时空数据发布中的隐式隐私保护

一种闪存敏感的多级缓存管理方法

位置大数据隐私保护研究综述

一种云环境下的大数据Top—K查询方法

云数据管理索引技术研究

MTruths:Web信息多真值发现方法

Discovering top-k patterns with differential privacy-an accurate approach

通风强度对空调可燃制冷剂泄漏安全性的影响

基于局部信息的建筑火灾火源参数反演研究

社会计算：大数据时代的机遇与挑战

甲流阳性率抽样精度估计与样本量控制策略

面向平行应急管理的计算实验框架

面向突发事件的复杂系统应急决策方法研究

面向ScholarSpace知识库的关键词查询方法

云环境下的Max／Min在线聚集技术研究

海量高维向量的并行Top-k连接查询

面向数据发布和分析的差分隐私保护

时空数据发布中的隐式隐私保护

一种闪存敏感的多级缓存管理方法

位置大数据隐私保护研究综述

一种云环境下的大数据Top—K查询方法

云数据管理索引技术研究

MTruths:Web信息多真值发现方法

Discovering top-k patterns with differential privacy-an accurate approach

我国城市社区治理创新的四种模式

我国特大城市进入风险社会了么？——基于北京、东京、首尔市民风险感知的比较研究

城市更新改造中的测绘技术应用——以广州市白云区为例

基于Hadoop的地图瓦片云存储系统的设计与实现

基于气象相似条件的台风路径预测

城乡规划监督测量信息服务系统设计与实现

Agent-based Simulation Systems for Emergency Management

基于本体建模的应急管理决策支持方法及在MERS中的应用

大数据背景下应急决策模式创新路径——基于应急决策系统的分析视角

基于多维情景空间表达的两层案例检索算法研究

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433