位置:成果数据库 > 期刊 > 期刊详情页
基于Spark的MapReduce相似度计算效率优化
  • ISSN号:1002-137X
  • 期刊名称:《计算机科学》
  • 时间:0
  • 分类:TP393.09[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]新疆财经大学统计与信息学院,乌鲁木齐830012, [2]新疆大学信息科学与工程学院,乌鲁木齐830046, [3]新疆医科大学医学工程技术学院,乌鲁木齐830011, [4]清华大学软件学院,北京100084
  • 相关基金:国家自然科学基金项目(61562078,61262088,71261025); 新疆维吾尔自治区自然科学基金(2016D01B014); 新疆财经大学博士启动基金(2015BS007)资助
中文摘要:

随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右。

英文摘要:

With the exponential growth of both internet users and contents,the similarity computation of big data needs more efficiency.In order to improve the performance of the algorithm,the implementation of the algorithm was analyzed,as the characteristics of the Spark is suitable for the iterative and interactive tasks.The algorithm based on the 2D partition algorithm was transplanted from the MapReduce to the Spark.And through the parameter adjustment,memory optimization etc.we improved the efficiency of the algorithm.The experimental results with 2 data sets on 3 different sizes of clusters indicated that compared Spark with MapReduce,the algorithm implementation efficiency of Spark platform is 4.715 times higher than MapReduce,and energy consumption is only 24.86% of the average energy consumption of Hadoop,which is about 4 times higher than Hadoop.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机科学》
  • 北大核心期刊(2011版)
  • 主管单位:重庆西南信息有限公司(原科技部西南信息中心)
  • 主办单位:重庆西南信息有限公司(原科技部西南信息中心)
  • 主编:陈国良
  • 地址:重庆市渝北区洪湖西路18号
  • 邮编:401121
  • 邮箱:jsjkx12@163.com
  • 电话:023-63500828
  • 国际标准刊号:ISSN:1002-137X
  • 国内统一刊号:ISSN:50-1075/TP
  • 邮发代号:78-68
  • 获奖情况:
  • 2001年重庆市优秀期刊,2004年第三届重庆市优秀科技期刊,2005年重庆市优秀期刊编辑部,2010年第六届重庆市期刊综合质量考核"十佳科技期刊",2012年重庆市出版专项资金报刊资助项目(重庆市新...,2013年重庆市出版专项资金重点学术期刊资助项目(...,2014年重庆市出版专项资金期刊资助项目(重庆市文...,2015年"中国国际影响力优秀学术期刊"
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国乌利希期刊指南,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:41227