位置:成果数据库 > 期刊 > 期刊详情页
SparkDAG优化MapReduce协同过滤算法
  • ISSN号:0529-6579
  • 期刊名称:《中山大学学报:自然科学版》
  • 时间:0
  • 分类:TP393.09[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]新疆财经大学统计与信息学院,新疆乌鲁木齐830012, [2]新疆大学信息科学与工程学院,新疆乌鲁木齐830008, [3]新疆医科大学医学工程技术学院,新疆乌鲁木齐830011, [4]清华大学软件学院,北京100084
  • 相关基金:国家自然科学基金(61562078,61262088);新疆维吾尔自治区自然科学基金(2016D018014);新疆财经大学博士启动基金(2015BS007)
中文摘要:

大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,高效率低成本的大数据处理技术成为学术界及工业界的研究热点。为提高协同过滤算法的执行效率,对MapReduce架构下的算法执行步骤进行了分解,并对算法执行缺陷进行了分析。结合Spark适于迭代型及交互型任务的特点,提出将算法从MapReduce平台移植Spark平台的改进思路。设计了算法在Spark中的实现流程,并通过参数调整、内存优化等方法进一步提高算法效率。实验结果表明:与MapReduce平台中的算法相比,基于Spark DAG调度的算法能够减少65%以上的HDFS重复I/O操作,执行效率与能耗效率分别提升近200%及50%。

英文摘要:

The scale effect of big data has brought great challenges to data storage, management and a- nalysis. And the high efficiency and low cost big data processing technology has become a hotspot re- search in academia and industry. In order to improve the efficiency of collaborative filtering algorithms, the implementation of the algorithm under the MapReduce architecture is decomposed in order to analysis the defects of the algorithm. For the Spark suitable for the iterative and interactive tasks, this paper pres- ents the methods to improve the execution efficiency from the MapReduce platform to the Spark platform. The implementation flow of the algorithm in Spark is designed, and efficiency is improved by parameter adjustment and memory optimization. Experimental results show that: based on spark DAG scheduling, the algorithm can reduce more than 65 % HDFS I/O operations and enforce the efficiency and energy effi- ciency were increased by nearly 200% and 50%.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中山大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:国家教育部
  • 主办单位:中山大学
  • 主编:王建华
  • 地址:广州市新港西路135号
  • 邮编:510275
  • 邮箱:xuebaozr@mail.sysn.edu.cn
  • 电话:020-84111990
  • 国际标准刊号:ISSN:0529-6579
  • 国内统一刊号:ISSN:44-1241/N
  • 邮发代号:46-15
  • 获奖情况:
  • 全国优秀高等学校自然科学学报及教育部优秀科技期...,广东省优秀科学技术期刊一等奖,《中文核心期刊要目总览》综合性科技类核心期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),英国农业与生物科学研究中心文摘,德国数学文摘,荷兰文摘与引文数据库,美国剑桥科学文摘,英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘,中国北大核心期刊(2000版)
  • 被引量:18509