东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

MapReduce连接查询的I/O代价研究

ISSN号：1000-9825
期刊名称：软件学报
时间：2015.6.15
页码：1438-1456
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]东北大学软件学院,辽宁沈阳110819, [2]东北大学信息科学与工程学院,辽宁沈阳110819
相关基金：基金项目：国家自然科学基金（61433008,61202088,61402090）;教育部高等学校博士学科点专项科研基金（20130042120006）;中国博士后科学基金面上项目（2013M540232）;中央高校基本科研业务费重大科技创新项目（N120817001）;辽宁省博士启动基金（201403314）
相关项目：基于Hadoop的分布式并行联机分析处理技术研究

关键词：连接查询, MAPREDUCE, I/O代价模型, 查询优化, join, MapReduce, I/O cost model, query optimization

中文摘要：

数据的指数级增长给数据管理和分析带来了严峻的挑战．连接查询是数据分析中一种常用运算，而MapReduce是一种用于大规模数据集并行处理的编程模型，研究基于MapReduce的连接查询代价评估和查询优化．有着学术意义和应用价值．MapReduce连接查询算法的性能主要取决于I／O代价（包括本地和网络I／O），而I／O代价与数据集以及连接运算的特征参数相关，通过对二元连接的I／O代价评估可以优化多元连接执行计划．基于此，首先提出了二元连接查询的I／O代价模型；随后，对现有二元连接算法进行形式化定义和简单扩展，归纳出6种基于MapReduce连接查询算法，并通过算法白盒分析定义它们的FO代价函数；最后，提出一种多元连接最优执行计划的选择算法．通过实验表明I／O代价模型的正确性且能够准确地反映算法的性能优劣．

英文摘要：

The exponential growth of data has posed serious challenges to the data management and analysis. Join query is a common data analysis operation, and MapReduce is a programming model implemented for parallel processing on large-scale datascts. Therefore the research on MapReduce based join algorithms and its cost model has a certain academic significance and application value. This study believes that the I/O （including the network and the local I/O） cost is the main factor affecting the performance of MapReduee based join algorithm. Furthermore, as the I/O cost is determined by the feature of both datasets and join operation, the executed plan of multi-ways join could be optimized by evaluating the I/O cost of two-ways join. In the study, an I/O cost model of two-ways join is proposed and then formally defined as a simple extension to the existing MapReduce based join algorithms, resulting in six join algorithms and their I/O cost functions through write-box analysis. In addition, an selection algorithm to find the best executed plan of multi-ways join is presented. The correctness and accuracy of the I/O cost model are validated through a series of experiments. The experiment results suggest that the I/O cost can accurately reflect the algorithm performance.

同期刊论文项目

云数据库系统能耗优化方法的研究

期刊论文 29 会议论文 2 获奖 1

大数据环境下基于动态数据模型的时效数据分析关键技术研究

期刊论文 3

大数据高效能存储与管理方法研究

期刊论文 17

基于Hadoop的分布式并行联机分析处理技术研究

期刊论文 26 会议论文 15

同项目期刊论文

基于MapReduce的封闭数据立方

MQM:一种用于Web服务查找的多维QoS模型

OSF:一种支持SaaS应用的构件框架

基于概率的大数据查询系统——Probery

一种面向BSP系统的多等待队列作业调度算法

一种优化MapReduce系统能耗的任务分发算法

面向社会媒体搜索的实体关系建模研究综述

De-duplication scheduling strategy in real-time data warehouse

基于角色和交互的SaaS软件生命周期推演模型

一种云计算环境下的能效模型和度量方法

OnFlyP:基于定向边交换的分布式在线大图划分算法

Asyn-SimRank:一种可异步执行的大规模SimRank算法

云数据管理系统能耗基准测试与分析

含有丰富结构化数据的Web页面分类技术的研究

面向属性级不确定数据的U-Topk查询优化算法的研究

BS P模型下基于边聚簇的大图划分与迭代处理

大图数据上顶点驱动的并行最小生成树算法

基于Hadoop的封闭直方图立方

增量式迭代计算模型研究与实现

面向代码的软件能耗优化研究进展

一种优化MapReduce系统能耗的数据布局算法

基于概率的大数据查询系统——Probery

一种优化MapReduce系统能耗的任务分发算法

增量式迭代计算模型研究与实现

实时系统温度功耗管理的优化方法研究

MapReduce大数据处理平台与算法研究进展

基于社交关系的微博主题情感挖掘

一种多源感知数据流上的连续真值发现技术

A Comparative Analysis on Weibo and Twitter

分布式协商：建立稳固分布式大数据系统的基石

大数据应用系统的消息驱动架构

基于位置的偏好查询处理技术

数据产品在线定制平台的探索实践

数据密集型计算中负载均衡的数据布局方法

HaoLap: A Hadoop based OLAP system for big data

Performance and Energy Optimization of the Terasort Algorithm by Task Self-Resizing

面向代码的软件能耗优化研究进展

一种能效优化的MapReduce资源比模型

Conversion Cost andSpecification on Interfaces of Key-value Stores

Research on MapReduce based Incremental Iterative Model and Framework

HaoLap: A Hadoop based OLAP System for Massive Data. Journal of Systems & Software

大数据分析的分布式MOLAP技术

一种能效优化的MapReduce资源比模型

一种优化MapReduce系统能耗的数据布局算法

A Novel Task Scheduling Approach for Reducing Energy Consumption of MapReduce Cluster

基于概率的大数据查询系统——Probery

一种优化MapReduce系统能耗的任务分发算法

Study on energy-consumption regularities of cloud computing systems by a novel evaluation model

一种云计算环境下的能效模型和度量方法

云数据管理系统能耗基准测试与分析

增量式迭代计算模型研究与实现

云计算环境下改进的能效度量模型

不确定性键值对数据模型及改进Top-k查询算法

分布式环境下的频繁数据缓存策略

面向代码的软件能耗优化研究进展

MapReduce大数据处理平台与算法研究进展

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609