东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

一种面向CPU-GPU异构系统的容错方法

ISSN号：1000-9825
期刊名称：《软件学报》
时间：0
分类：TP316[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]国防科学技术大学计算机学院并行与分布处理国家重点实验室,湖南长沙410073
相关基金：国家自然科学基金（60921062,60873016）

作者：徐新海[1], 杨学军[1], 林宇斐[1], 林一松[1], 唐滔[1]

关键词： GPGPU, 异构系统, 容错, Lazy策略, 检查点, GPGPU, heterogeneous system, fault-tolerance, Lazy strategy, checkpointing

中文摘要：

近年来，为了缓解日益严重的功耗问题，异构并行体系结构已成为超级计算机发展的一个重要趋势．图形处理器（gr印hicsprocessingunit，简称GPU）凭借其超高的计算性能和性能功耗比，作为一种高效的加速部件已被广泛应用于高性能计算领域．但是，GPU先天的可靠性缺陷势必加剧超级计算机的可靠性问题．目前，国际上关于CPU．GPU异构系统容错技术的研究工作主要将GPU从异构系统中独立出来，以每次调用为粒度对其进行容错处理．设计了一种面向CPU-GPU异构系统的Lazy容错方法，给出了基于编译指导命令的容错框架及其约束，并讨论了相关的编译实现和优化方法．最后通过实验验证了该方法的正确性．实验结果表明，与现有的容错方法相比，利用所设计的LazyFT容错方法对GPGPU（generalpurposecomputationongraphicshardware）程序进行容错处理，可以明显降低容错代价．

英文摘要：

In recent years, heterogeneous parallel architecture has become an important development trend of supercomputer because it mitigates the problem of increasingly high power consumption. As a high performance and power efficiency accelerator, GPU （graphics processing unit） has been extensively used in HPC （high performance computing） area. However, the inherent unreliability of the GPU hardware deteriorates the reliability of supercomputer. Presently, most research of FT （fault-tolerance） techniques for CPU-GPU heterogeneous system isolates the GPU from the system, and does FT work for it at the granularity of a single GPU invocation. This paper proposes a new Lazy FT method for CPU-GPU heterogeneous system, introduces a FT framework and its constraints based on directives, and demonstrates the validity of the Lazy FT method. The experimental results show that, compared with existing FT methods, the cost of LazyFT is very cheap.

同期刊论文项目

千万亿次高性能计算关键技术

期刊论文 27

面向科学计算的异构多流体系结构关键技术研究

期刊论文 20 会议论文 21

同项目期刊论文

Impacts of NBTI/PBTI on power gated SRAM

一种面向CMP的可变相联度混合Cache结构

SS-SERA: An improved framework for architectural level soft error reliability analysis

优化迁移共享的自适应令牌协议

Accurate and Simplified Prediction of AVF for Delay and Energy Efficient Cache Design

GPU异构系统中的存储层次和负载均衡策略研究

基于LBDL逻辑的抗DPA攻击电路设计方法

一种基于视频相关性的溶解镜头检测方法

微处理体系结构级软错误易感性评估

基于CUDA平台的遗传算法并行实现研究

用于低开销容错设计的存储部件可靠性评估研究

多核处理器片上存储系统研究

由贪心策略构造Chebyshev多项式概要

面向片上网络路由器漏流功耗优化的自适应缓冲管理策略

一种基于关键路径分析的CPU-GPU异构系统综合能耗优化方法

一种电影视频场景的自动构造方法

一种抗DPA攻击的双轨信号平行布线方法

一种低成本高精度CMOS基准电压源设计

改进的能量最优OpenMP静态调度算法

异构系统功耗感知的并行循环调度方法

基于约束的多面体抽象域的弱接合

基于FPGA的Cholesky分解细粒度并行结构与实现

使用时间冗余保证处理器的可靠性

面向OpenMP和OpenTM应用的并行数据重用理论

基于量子漫步的图形匹配算法进展与展望

忆阻器存储研究与展望

异构系统硬件故障传播行为分析及容错优化

基于事务回退的事务存储系统的故障恢复

静态分析面向异构系统的应用级Checkpoint设置问题

一种利用并行复算实现的OpenMP容错机制

PartialRC: A Partial Recomputing Method for Efficient Fault Recovery on GPGPUs

异构并行系统能耗优化分析模型

一种基于扩展数据流分析的OpenMP程序应用级检查点机制

忆阻器状态逻辑中与操作的高效设计与实现

大规模MPI并行计算的可扩展三模冗余容错机制

异构系统的异步应用级Checkpointing技术

一种基于关键路径分析的CPU-GPU异构系统综合能耗优化方法

模型指导的多维GPU软件低功耗优化方法

基于通信感知任务划分的异构系统低功耗优化方法

一种基于递归最优阈值选择算法的小波地震信号的去噪方法

基于线程的MPI通信加速器技术研究

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609