东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

最小化多MapReduce任务总完工时间的分析模型及其应用

ISSN号：1007-130X
期刊名称：《计算机工程与科学》
时间：0
分类：TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]电子科技大学信息与软件工程学院,四川成都610054, [2]电子科技大学计算机科学与工程学院,四川成都611731
相关基金：国家自然科学基金资助项目（61150110486,61272528）;中央高校基金资助项目（ID-ZYGX2013J073）;2013年CCF-腾讯科研基金资助项目

作者：田文洪[1,2], 陈瑜[2], 王心阳[2], 薛瑞尼[2], 赵勇[2]

关键词： HADOOP, MAPREDUCE, 批量作业, 调度优化, 最小化总完工时间, Hadoop , MapReduce , batch workloads , optimized schedule, minimized makespan

中文摘要：

随着大规模的MapReduce集群广泛地用于大数据处理，特别是当有多个任务需要使用同一个Hadoop集群时，一个关键问题是如何最大限度地减少集群的工作时间，提高MapReduce作业的服务效率。可将多个MapReduce作业当做一个调度任务建模，观察发现多个任务的总完工时间和任务的执行顺序有密切关系。研究目标是设计作业调度系统分析模型，最小化一批MapReduce作业的总完工时间。提出一个更好的调度策略和实现方法，使整个调度系统符合经典Johnson算法的条件，从而可使用经典Johnson算法在线性时间内获取总完工时间的最优解。同时，针对需要使用两个或多个资源池进行平衡的问题，提出了一种线性时间解决方案，优于已知的近似模拟方案。该理论模型可应用于提高系统响应速度、节能和负载均衡等方面，对应的应用实例提供了证实。

英文摘要：

As large-scale MapReduce clusters become widely adapted to process huge amount of data, one of critical challenges is to improve the service quality of MapReduce clusters by minimizing their makespan. A scheduling model can be considered for multiple MapReduce jobs. It is observed that the order in which these jobs are executed can have a significant impact on their overall makespan. The goal of the paper is to design a framework of automatic job scheduler and propose an analytical model for minimizing the makespan of such a set of MapReduce jobs. By considering a better strategy and implementa- tion, we can meet the conditions of the classical Johnson algorithm and use it to find the optimal solu- tion. Under our proposed new strategy, solving the balanced pools problem becomes exact in linear time, better than existing simulating approaches. Our proposed analytical results can be applied to improve system response time, energy-efficiency and load-balance in Hadoop cluster pools, while corresponding numerical examples validate our observations.

同期刊论文项目

面向MapReduce的网络存储系统优化技术研究

期刊论文 3

Energy-efficient scheduling techniques in Cloud Data Centers

期刊论文 2

同项目期刊论文

2009—2013年云计算领域国家自然科学基金项目统计及研究热点分析

云计算环境下基于用户体验的成本最优存储策略研究

Efficient Task Scheduling for Many Task Computing with Resource Attribute Selection

期刊信息

《计算机工程与科学》
中国科技核心期刊

主管单位:国防科学技术大学
主办单位:国防科学技术大大学计算机学院
主编：王志英
地址：湖南长沙德雅路109号
邮编：410073
邮箱：jsjgcykx@163.net
电话：0731-84576405

国际标准刊号：ISSN：1007-130X
国内统一刊号：ISSN：43-1258/TP
邮发代号:42-153

获奖情况:
湖南省优秀期刊,首届国防科技期刊优秀期刊,《CAJ-CD规范》执行优秀期刊

国内外数据库收录:
英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）

被引量:16422