东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

并行计算框架Spark的自适应缓存管理策略

ISSN号：0372-2112
期刊名称：《电子学报》
时间：0
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046, [2]乌鲁木齐职业大学信息工程学院,新疆乌鲁木齐830002
相关基金：国家自然科学基金（No.61262088,No.61462079）

关键词：并行计算, 缓存管理策略, SPARK, 弹性分布式数据集, parallel computing, cache management strategy, Spark, resilient distribution datasets

中文摘要：

并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略（Self-Adaptive Cache Management,SACM）,包括缓存自动选择算法（Selection）、并行缓存清理算法（Parallel Cache Cleanup,PCC）和权重缓存替换算法（Lowest Weight Replacement,LWR）.其中,缓存自动选择算法通过分析任务的DAG（Directed Acyclic Graph）结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明：我们的策略提高了Spark的任务执行效率,并使内存资源得到有效利用.

英文摘要：

As a parallel computation framework,Spark does not have a good strategy to select valuable RDD to cache in limited memory.When memory has been full load,Spark will discard the least recently used RDD while ignoring other factors such as the computation cost and so on.This paper proposed a self-adaptive cache management strategy（SACM）,which comprised of automatic selection algorithm（Selection）,parallel cache cleanup algorithm（PCC） and lowest weight replacement algorithm（LWR）.Selection algorithm can seek valuable RDDs and cache their partitions to speed up data intensive computations.PCC clean-up the valueless RDD sasynchronously to improve memory utilization.LWR takes comprehensive consideration of the usage frequency of RDD,the RDD＇s computation cost,and the size of RDD.Experiment results show that Spark with our selection algorithm calculates faster than traditional Spark,parallel cleanup algorithm contributes to the improvement of memory utilization,and LWR shows better performance in limited memory.

同期刊论文项目

社交网络环境下基于协同过滤的上下文感知推荐系统研究

期刊论文 23

云计算环境下应用数据层节能计算研究

期刊论文 44

同项目期刊论文

温度感知的MapReduce节能任务调度策略

适应节能与异构环境的MapReduce数据布局策略

云计算环境下多有向无环图工作流的节能调度算法

一种适应节能的云存储系统元数据动态建模与管理方法

P2P下基于RSA密码机制和门限秘密共享的信誉管理方案

新疆典型荒漠草地的高光谱特征提取和分析研究

融合奇异性和扩散过程的协同过滤模型

评分可信度条件下的协同过滤模型

基于Spark的ItemBased推荐算法性能优化

SparkDAG优化MapReduce协同过滤算法

基于Spark的MapReduce相似度计算效率优化

基于分配适应度的Spark渐进填充分区映射算法

大数据流式计算环境下的内存节能策略

基于聚类层次模型的视频推荐算法

基于GraphX的传球网络构建及分析研究

基于信任模型填充的协同过滤推荐模型

新疆阜康荒漠植被指数特征和时空过程分析

基于内存云架构的带宽负载均衡算法

基于可靠性的云工作流调度策略

一种面向低延迟的内存HDFS数据存储策略

基于内存云的大块数据对象并行存取策略

适应异构集群的Mesos多资源调度DRF增强算法

面向内存云的数据块索引方法

基于复杂网络节点重要性的链路预测算法

基于迭代填充的内存计算框架分区映射算法

分布式文件系统数据块聚类存储节能策略

面向内存云的协调器选举策略

结构化查询语言动态功耗解析及建模

内存云分级存储架构下的数据迁移模型

融合评论分析和隐语义模型的视频推荐算法

内存计算框架局部数据优先拉取策略

云环境下能耗感知的虚拟机动态迁移策略研究

融合可信度和时效标签的商品推荐算法

结合评分可信度和动态时间加权的推荐算法

基于LDA主题模型的移动应用相似度构建方法

基于负载感知的数据流动态负载均衡策略

基于标签匹配的协同过滤推荐算法研究

基于快速构建模板的购物信息抽取方法

基于SpringMVC和Hibernate的企业人事管理系统

云环境基于多工作流的任务调度节能算法的研究

一种分区BP人工神经网络图像差值算法

An Operator on Ascent Sequences

一种多 DAG 任务共享异构资源调度的费用优化方法

大数据流式计算环境下的阈值调控节能策略