东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于Spark的MapReduce相似度计算效率优化

ISSN号：1002-137X
期刊名称：《计算机科学》
时间：0
分类：TP393.09[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]新疆财经大学统计与信息学院,乌鲁木齐830012, [2]新疆大学信息科学与工程学院,乌鲁木齐830046, [3]新疆医科大学医学工程技术学院,乌鲁木齐830011, [4]清华大学软件学院,北京100084
相关基金：国家自然科学基金项目（61562078,61262088,71261025）; 新疆维吾尔自治区自然科学基金（2016D01B014）; 新疆财经大学博士启动基金（2015BS007）资助

关键词：相似度计算, MAPREDUCE, Spark优化, 能耗优化, Similarity computing, MapReduce, Spark optimization, Energy optimization

中文摘要：

随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右。

英文摘要：

With the exponential growth of both internet users and contents,the similarity computation of big data needs more efficiency.In order to improve the performance of the algorithm,the implementation of the algorithm was analyzed,as the characteristics of the Spark is suitable for the iterative and interactive tasks.The algorithm based on the 2D partition algorithm was transplanted from the MapReduce to the Spark.And through the parameter adjustment,memory optimization etc.we improved the efficiency of the algorithm.The experimental results with 2 data sets on 3 different sizes of clusters indicated that compared Spark with MapReduce,the algorithm implementation efficiency of Spark platform is 4.715 times higher than MapReduce,and energy consumption is only 24.86% of the average energy consumption of Hadoop,which is about 4 times higher than Hadoop.

同期刊论文项目

云计算环境下应用数据层节能计算研究

期刊论文 44

多Slot环境下的MapReduce能耗模型及优化研究

期刊论文 10

基于网络社群的网络舆情演化分析及突发事件预警机制研究

期刊论文 14

同项目期刊论文

温度感知的MapReduce节能任务调度策略

适应节能与异构环境的MapReduce数据布局策略

基于Spark的ItemBased推荐算法性能优化

大数据流式计算环境下的阈值调控节能策略

SparkDAG优化MapReduce协同过滤算法

基于分配适应度的Spark渐进填充分区映射算法

大数据流式计算环境下的内存节能策略

基于聚类层次模型的视频推荐算法

基于GraphX的传球网络构建及分析研究

稀疏形式下的区块式快速指数运算算法

温度感知的MapReduce节能任务调度策略

分布式奇异值分解最小平方估计算法

适应节能与异构环境的MapReduce数据布局策略

基于GraphX的传球网络构建及分析研究

面向网络舆情的哈萨克语情感词汇自动获取

面向舆情主题的微博用户网络影响力挖掘分析

暴恐主题下微博用户特征及情感倾向性分析

面向舆情主题的微博用户行为聚类实证分析

基于CRFs的哈萨克语名词短语自动获取

基于超网络的舆情信息传播机制分析

网络社群的舆情演化机制分析

温度感知的MapReduce节能任务调度策略

适应节能与异构环境的MapReduce数据布局策略

云计算环境下多有向无环图工作流的节能调度算法

一种适应节能的云存储系统元数据动态建模与管理方法

P2P下基于RSA密码机制和门限秘密共享的信誉管理方案

新疆典型荒漠草地的高光谱特征提取和分析研究

融合奇异性和扩散过程的协同过滤模型

评分可信度条件下的协同过滤模型

基于Spark的ItemBased推荐算法性能优化

SparkDAG优化MapReduce协同过滤算法

基于分配适应度的Spark渐进填充分区映射算法

大数据流式计算环境下的内存节能策略

基于聚类层次模型的视频推荐算法

基于GraphX的传球网络构建及分析研究

基于信任模型填充的协同过滤推荐模型

新疆阜康荒漠植被指数特征和时空过程分析

基于内存云架构的带宽负载均衡算法

基于可靠性的云工作流调度策略

一种面向低延迟的内存HDFS数据存储策略

基于内存云的大块数据对象并行存取策略

适应异构集群的Mesos多资源调度DRF增强算法

面向内存云的数据块索引方法

基于复杂网络节点重要性的链路预测算法

基于迭代填充的内存计算框架分区映射算法

分布式文件系统数据块聚类存储节能策略

面向内存云的协调器选举策略

结构化查询语言动态功耗解析及建模

内存云分级存储架构下的数据迁移模型

融合评论分析和隐语义模型的视频推荐算法

内存计算框架局部数据优先拉取策略

云环境下能耗感知的虚拟机动态迁移策略研究

大数据时代网络舆情信息集成机制研究

融合可信度和时效标签的商品推荐算法

结合评分可信度和动态时间加权的推荐算法

基于LDA主题模型的移动应用相似度构建方法

基于负载感知的数据流动态负载均衡策略

基于标签匹配的协同过滤推荐算法研究

基于快速构建模板的购物信息抽取方法

并行计算框架Spark的自适应缓存管理策略

基于SpringMVC和Hibernate的企业人事管理系统

云环境基于多工作流的任务调度节能算法的研究

一种分区BP人工神经网络图像差值算法

An Operator on Ascent Sequences

一种多 DAG 任务共享异构资源调度的费用优化方法

期刊信息

《计算机科学》
北大核心期刊（2011版）

主管单位:重庆西南信息有限公司（原科技部西南信息中心）
主办单位:重庆西南信息有限公司（原科技部西南信息中心）
主编：陈国良
地址：重庆市渝北区洪湖西路18号
邮编：401121
邮箱：jsjkx12@163.com
电话：023-63500828

国际标准刊号：ISSN：1002-137X
国内统一刊号：ISSN：50-1075/TP
邮发代号:78-68

获奖情况:
2001年重庆市优秀期刊,2004年第三届重庆市优秀科技期刊,2005年重庆市优秀期刊编辑部,2010年第六届重庆市期刊综合质量考核"十佳科技期刊",2012年重庆市出版专项资金报刊资助项目（重庆市新...,2013年重庆市出版专项资金重点学术期刊资助项目（...,2014年重庆市出版专项资金期刊资助项目（重庆市文...,2015年"中国国际影响力优秀学术期刊"

国内外数据库收录:
波兰哥白尼索引,美国乌利希期刊指南,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:41227