东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

分布式数据流上的高性能分发策略

ISSN号：1000-9825
期刊名称：《软件学报》
时间：0
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]华东师范大学计算机科学与软件工程学院,上海200062, [2]上海市高可信计算重点实验室华东师范大学,上海200062
相关基金：国家高技术研究发展计划（863）（2015AA015307）;国家自然科学基金（61232002,61332006,61572194）

作者：房俊华[1,2], 王晓桐[1,2], 张蓉[1,2], 周傲英[1,2]

关键词：分布式数据流, 负载倾斜, 基于Key操作, 均衡调整, 负载迁移, distributed data stream, workload skew, Key-based operation, workload balance, workload migration

中文摘要：

随着大数据应用的普及,高效可扩展的数据流操作在实时分析处理中扮演着越来越重要的角色.分布式并行处理架构是应对大流量、低延时数据流处理任务的一种有效解决方案.然而在Key-based分组并行处理中,由于数据的倾斜分布及数据流本身的实时、动态和数据规模不可预知等特性,使得数据流分布并行处理系统存在持续且动态负载不均衡现象,这会造成系统时效性降低、硬件资源浪费等问题.现有的研究工作处理均衡负载有两种方案：（1）基于key粒度的迁移,使得并行处理节点负载达到均衡;（2）基于元组粒度级别的拆分,采用随机分发使系统均衡.前者将系统调整至给定的均衡容忍范围内,类似于一维装箱的NP问题;后者对key的拆分势必带来新的为维护Key-based操作的正确性而增加的额外代价,如内存及网络通信成本.综合两种方法,提出对key按需拆分、尽量合并的方法,通过轻量级均衡调整算法以及保证Key-based操作特性的拆分方法,使系统既能达到后者的均衡,又能减少细粒度均衡所带来的额外代价.

英文摘要：

Along with the popularization of big data applications, scalable and efficient stream join processing plays a more important role in online real-time analysis. The distributed parallel processing framework provides an effective solution which facilitates processing of massive data stream with low latency. For Key-based calculations, data skewness and inherent features of stream data, such as real-time, dynamics and unpredictability on data volume, lead to load imbalance to distributed processing systems. Such phenomenon can produce poor performance and waste hardware resources. There have been two solutions to load imbalance： 1） Key-based migration scheme that keeps balance among parallel processing nodes; 2） tuple-based partitioning scheme that distributes data randomly to achieve load balance. The former scheme adjusts system to the defined equilibrium range, which resembles the one-dimensional packing problem. And the latter maintains the accuracy of Key-based operations, which certainly incurs additional memory cost and network communication cost. Thispaper presents a novel parallel processing scheme that combines both Key-based and tuple-based schemes to partition keys on demand. The proposed scheme adopts a lightweight load balance algorithm and a partitioning scheme which retains the characteristics of Key-based operations, thus realizing the load balance of tuple-base strategy while reducing the additional cost of fine-grained balance.

同期刊论文项目

集群环境下的高通量事务处理技术

期刊论文 1

支持技术创新的海量数据管理基础理论与关键技术

期刊论文 38

集群环境下基于内存的高性能数据管理与分析

期刊论文 39

同项目期刊论文

Threshold-Based Shortest Path Query over Large Correlated Uncertain Graphs

Continuous Outlier Monitoring on Uncertain Data Streams

数据库性能测试可视化工具VisualDBBench及面向内存数据库的应用

基于增量式分区策略的MapReduce数据均衡方法

大数据环境下并行计算模型的研究进展

内存数据库的可用性综述

Constrained query of order-preserving submatrix in gene expression data

PCPIR-V：基于Spark的并行隐私保护近邻查询算法

集群数据库系统的日志复制和故障恢复

基于上下文感知实体排序的缺失数据修复方法

高可用数据库系统中的分布式一致性协议

内存数据库事务提交的关键技术与挑战

分布式内存数据库系统的容错管理

分布式系统中Semi-Join算法的实现

分布式可扩展数据流连接算法

GraphHP：一个图迭代处理的混合平台

基于Map/Reduce的分布式数据排序算法分析

非阻塞事务型实时数据注入技术研究与实现

面向OceanBase的存储过程设计与实现

DBugHelper：分布式系统Debug协助工具

基于Raft一致性协议的高可用性实现

集群资源统一管理和调度技术综述

面向内存计算的连接算法

内存数据索引：以处理器为核心的性能优化技术

大规模分布并行计算系统容错与恢复技术

内存集群计算：交互式数据分析

LCDJ：面向内存集群计算的局部感知连接算法

图像内部Move-Copy篡改盲取证算法研究

基于改进的Adaboost算法在网络入侵检测中的应用

新型非易失存储环境下事务型数据管理技术研究

分布式大数据不一致性检测

基于可能世界模型的关系数据不一致性的修复

基于卷积神经网络的网络流量识别技术研究

分布式大数据多函数依赖冲突检测

关系数据中函数依赖检测方法

一种基于离群点检测的自动实体匹配方法

基于隐马尔可夫模型和遗传算法的地图匹配算法

一种基于Spark的多路空间连接查询处理算法

不确定关系数据属性级溯源表示与概率计算

生物实验信息管理系统

考虑观点多样性的评论选择问题

Mimir:一种基于密文的全文检索服务系统

Supporting Various Top-k Queries over Uncertain Datasets

支持通信数据查询分析的分布式计算系统

电子商务中的商品推荐系统

电子商务商品归一化方法研究

Product-oriented review summarization and scoring

基于概率图模型的互联网广告点击率预测

一种面向团体的影响最大化方法

基于分层抽样的重叠深网数据源选择

基于Top-k查询约束的深网增量爬取

基于立体视觉的监控视频人体目标跟踪

基于改进符号有向图模型的发动机引气系统多故障诊断方法

一种基于格的隐私保护聚类数据挖掘方法

基于用户邻域和主题的新颖性Web社区推荐方法

一种基于曝光量和点击率的用户组优化策略

分布式可扩展数据流连接算法

DBugHelper：分布式系统Debug协助工具

基于评论分析的评分预测与推荐

下一代移动推荐系统

基于业务持续性的航空公司机务维修安全评估

基于数据关联的分布式对象代理数据库划分方法

内存数据管理技术在族谱信息系统中的应用

支持技术创新的专利检索与分析

云键—值数据仓库的并行数据集成方法研究

一种改进的动态帧时隙ALOHA算法

专利检索与分析研究综述

A Patent Hotspot Discovery Method

Attribute Level Lineage in Uncertain Data with Dependencies

基于灰色动态马尔科夫的航班延误预测

CDM机制下基于多航站楼运行模式的机场停机位实时分配算法

Remaining useful life prognostics for aeroengine based on superstatistics and information fusion

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609