东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于增量式分区策略的MapReduce数据均衡方法

ISSN号：0254-4164
期刊名称：《计算机学报》
时间：0
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：西北工业大学计算机学院,西安710072
相关基金：国家“九七三”重点基础研究发展规划项目基金（2012CB316203）; 国家自然科学基金（61033007,61332006,61472321）; 西北工业大学基础研究基金（3102014JSJ0005,3102014JSJ0013）资助

关键词：增量分配, 细粒度分区, 数据倾斜, 均衡分区, MapReduce, 大数据, incremental allocation, fine-grained partition~ data skew~ balanced partitioning~MapReduce~ big data

中文摘要：

MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致在处理密集数据时,Reduce端常会出现数据倾斜的问题.虽然系统为用户提供了自定义分区函数方法,但不幸的是在不清楚输入数据分布的情况下,数据倾斜问题很难被避免.为解决数据划分的不均衡,该文提出一种将分区向Reducer指派时按照多轮分配的分区策略.该方法首先在Map端产生多于Reducer个数的细粒度分区,同时在Mapper运行过程中实时统计各细粒度分区的数据量;然后由JobTracker根据全局的分区分布信息筛选出部分未分配的细粒度分区,并用代价评估模型将选中的细粒度分区分配到各Reducer上;依照此方法,经过多轮的筛选、分配,最终在执行Reduce（）函数前,将所有细粒度分区分配到Reduce端,以此解决分区后各Reducer接收数据总量均衡的问题.最后在Zipf分布数据集和真实数据集上与现有的分区切分方法Closer进行了对比,增量式分区策略更好地解决了数据划分后的均衡问题.

英文摘要：

MapReduce has been widely used in processing large data sets in a distributed cluster as a flexible computation model, such as log analysis, document clustering and other forms of data analytics. In the MapReduce open-source platform Hadoop, the default Hash/Range partition scheme usually results in unbalanced data load in the Reduce phase. Even though Hadoop allows users to define a partition function, it is difficult to achieve balanced data load without detailed information on data distribution. In this paper, we propose a novel multiple-round approach to balance data load in the Reduce phase. In our proposal, Mapper produces more fine-grained partitions than the number of Reducer and gathers the statistics on the sizes of fine-grained partitions. And then, JobTracker selects appropriate fine-grained partitions to be allocated to Reducers before running Reduce （） function. We introduce a cost model and propose a heuristic assignment algorithm for this task. Finally, we experimentally compare our approach with Closer, which uses a segment partition method, on both synthetic and real datasets. The experimental results show our method achieves more balanced data load.

同期刊论文项目

混合存储和计算模式下的大图处理优化技术研究

期刊论文 11

集群环境下基于内存的高性能数据管理与分析

期刊论文 39

数据密集型计算环境下的数据管理方法与技术

期刊论文 125 会议论文 77

同项目期刊论文

面向路网的不确定移动范围查询技术

A framework for supporting tree-like indexes on the Chord overlay

异构存储系统性能监测技术研究

多层次RFID数据流上复杂事件检测

大规模图挖掘算法并行化研究

基于ETW的Windows系统性能监测技术

基于MapReduce的封闭数据立方

一种基于局部冲突分配的DST组合规则

Asyn-SimRank:一种可异步执行的大规模SimRank算法

大图数据上顶点驱动的并行最小生成树算法

Efficient mining differential co-expression biclusters in microarray datasets

一种云环境下基于分级管理的自律计算模型

MapReduce集群中最大收益问题的研究

在线视频点播系统节能方法与策略研究

TBPRS:基于信任关系的社交用户推荐系统

Lightweight Locking for Main Memory Database Systems

面向路网空间的不确定性移动范围查询技术的研究

基于消息传递机制的MapReduce图算法研究

RM-LCDF:一种块级连续数据保护高效数据恢复方法

用户评论的质量检测与控制研究综述

面向路网的不确定移动范围查询

针对不确定射频识别数据流的改进概率推导方法

基于共享的MapReduce多查询优化技术

基于私有云的虚拟实验平台的设计与实现

基于蛋白质网络的模块动态特性挖掘研究

Semantic relevance ranking for XML keyword search

云计算环境下的大规模图数据处理技术

针对不确定RFID数据流上的改进概率推导方法

<h3 style="color:#222222;text-indent:0px;background-color:#FFFFFF;" class="gs_rt&q

Scalable SPARQL querying of large RDF graphs

FDSS:基于HDFS的海量音乐特征数据存储系统

SERA:股票历史交易重现和分析的原型系统

一种基于LBS的移动个性化推荐系统

基于MapReduce的数据聚集运算算法

云存储性能评测技术与方法研究

A high-level energy consumption model for heterogeneous data centers

云存储性能评测技术研究

海量存储系统能耗评测模型的研究

面向BSP 模型的负载均衡Hash 图数据划分

应用信息论的数据导向模式匹配方法

不确定RFID数据流上基于熵的数据推导方法

S-TRAP: Optimization and Evaluation of Timely Recovery to Any Point-in-time (TRAP)

RFID交叉读仲裁方法研究

RFID数据流上多目标复杂事件检测

异构信息空间中实体关联关系挖掘算法CFRQ4A

ERE:基于半结构化Web页面的实体关系抽取系统

BHP:面向BSP模型的负载均衡Hash图数据划分

Reverse k-ranks query

NTFS文件系统空间回收方法的研究

在线-离线数据流上复杂事件检测

基于概率SLCA的XML过滤

基于Hadoop的封闭直方图立方

Group Location Selection Queries over Uncertain Objects

Performance Evaluation of Online Backup Cloud Storage

支持大数据管理的NoSQL 系统研究综述

异构网络中关联实体识别模型及增量式验证算法研究

A unified framework for semi-supervised PU learning

Differentially private histogram publication

基于分布式的自律计算模型研究与设计

智能超市中在线与离线RFID数据仓库技术研究

基于数据差异的连续数据保护恢复算法

基于OpenFlow的虚拟网络架构的设计与实现

一种基于图结构的Web实体排序方法

一种面向情感分析的微博表情情感词典构建及应用

共享的MapReduce环境下批量作业的调度算法研究

空间数据库中主题相关区域查询

一种基于增量分区的社交网络数据管理与维护方法

Efficient mining differential co-expression bicluster in microarray datasets. Elsevier Gene

Efficient mining differential co-expression constant row bicluster in real-valued gene expression da

多标签数据挖掘技术研究综述

A Novel Approach Based on Multi-View Content Analysis and Semi-Supervised

Query intent disambiguation of keyword-based semantic entity search in dataspaces

一种有效的多数据源RFID冗余数据清洗技术

基于数据价值的云存储动态备份一致性机制

基于信息流动分析的动态社区发现方法

基于关键字语义信息的XML文档分类

<span style="color:red;font-family:宋体;font-size:12pt;"><span style="font-fam

<span style="font-family:宋体;font-size:12pt;"><span style="font-family:;"

<a class="fz14" href="http://epub.cnki.net/kns/detail/detail.aspx?QueryID=2&am

Fast Distributed Transactions and Strongly Consistent Replication for OLTP Database Systems

Marianne Winslett. Differentially private histogram publication

广告点击率估算技术综述

面向用户观点分析的多分类器集成和优化技术

一种障碍空间数据库中的连续反k近邻查询方法

图数据中Top—k属性差异q-clique查询

支持大数据管理的NoSQL系统研究综述

基于堆叠文件系统的云计算存储优化

一种基于Hadoop的多表链接策略

基于关联数据的一致性和时效性清洗方法

BOD：一种高效的分布式离群点检测算法

新型OLTP数据库系统设计的关键技术及挑战

大数据环境下并行计算模型的研究进展

一种面向海量分布式数据库的嵌套查询策略

HDFS下海量小文件高效存储与索引方法

面向Web数据集成的真值发现算法

基于差分隐私的频繁序列模式挖掘算法

面向微博系统的实时个性化推荐

SERA:股票历史交易重现和分析系统

Constrained query of order-preserving submatrix in gene expression data

A Novel Approach Based on Multi-View Content Analysis and Semi- Supervised Enrichment for Movie Recommendation

异构数据联合式的真值发现算法

一种面向多源知识图谱的样例查询方法

Threshold-Based Shortest Path Query over Large Correlated Uncertain Graphs

Continuous Outlier Monitoring on Uncertain Data Streams

数据库性能测试可视化工具VisualDBBench及面向内存数据库的应用

大数据环境下并行计算模型的研究进展

内存数据库的可用性综述

Constrained query of order-preserving submatrix in gene expression data

PCPIR-V：基于Spark的并行隐私保护近邻查询算法

集群数据库系统的日志复制和故障恢复

基于上下文感知实体排序的缺失数据修复方法

高可用数据库系统中的分布式一致性协议

内存数据库事务提交的关键技术与挑战

分布式内存数据库系统的容错管理

分布式系统中Semi-Join算法的实现

分布式可扩展数据流连接算法

GraphHP：一个图迭代处理的混合平台

基于Map/Reduce的分布式数据排序算法分析

非阻塞事务型实时数据注入技术研究与实现

面向OceanBase的存储过程设计与实现

DBugHelper：分布式系统Debug协助工具

基于Raft一致性协议的高可用性实现

集群资源统一管理和调度技术综述

面向内存计算的连接算法

内存数据索引：以处理器为核心的性能优化技术

大规模分布并行计算系统容错与恢复技术

内存集群计算：交互式数据分析

LCDJ：面向内存集群计算的局部感知连接算法

图像内部Move-Copy篡改盲取证算法研究

基于改进的Adaboost算法在网络入侵检测中的应用

分布式数据流上的高性能分发策略

新型非易失存储环境下事务型数据管理技术研究

分布式大数据不一致性检测

基于可能世界模型的关系数据不一致性的修复

基于卷积神经网络的网络流量识别技术研究

分布式大数据多函数依赖冲突检测

关系数据中函数依赖检测方法

一种基于离群点检测的自动实体匹配方法

基于隐马尔可夫模型和遗传算法的地图匹配算法

一种基于Spark的多路空间连接查询处理算法

Constrained query of order-preserving submatrix in gene expression data

基于上下文感知实体排序的缺失数据修复方法

GraphHP：一个图迭代处理的混合平台

新型非易失存储环境下事务型数据管理技术研究

分布式大数据不一致性检测

基于可能世界模型的关系数据不一致性的修复

分布式大数据多函数依赖冲突检测

关系数据中函数依赖检测方法

一种基于离群点检测的自动实体匹配方法

基于Web信息的关系型信息错误自动检测与修复技术研究综述

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433