位置:成果数据库 > 期刊 > 期刊详情页
大规模并行计算机系统硬件故障容错技术综述
  • ISSN号:1007-130X
  • 期刊名称:《计算机工程与科学》
  • 时间:0
  • 分类:TP302.8[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]并行与分布处理国防科技重点实验室,湖南 长沙 410073
  • 相关基金:国家自然科学基金资助项目(60621003,60633050)
中文摘要:

计算机系统的容错是一个不容忽视的问题。近年来,随着系统结构的复杂性增加,半导体制造工艺的发展,线宽的降低以及集成度的提高,从用户桌面系统到分布式计算环境,乃至大规模并行计算机系统,功耗和可靠性问题都很突出。本文首先介绍了计算机系统可靠性和容错技术的基本概念、基本方法和基本思想,然后回顾了近些年来一些具有代表性的硬件故障检测技术和硬件故障恢复技术,其中重点介绍了针对大规模并行计算机系统提出的容错方法。本文还介绍了我们在先前的研究工作中提出的一种优化的故障恢复技术,称为容错并行算法。最后,总结了一些可能的研究方向。

英文摘要:

Fault tolerance is critical to computer systems. Recently,as the ever increasing complexity of architecture and the development of semiconductor techniques,the density of chips becomes much higher. As a consequence,the reliability issue of computer systems emerges,not only for largescale parallel systems,but also for distributed environments,even desktop applications. This paper reviews a number of typical faulttolerance techniques concerning hardware faults proposed in recent years,especially for those designed for largescale parallel systems,draws some preliminary conclusions,and puts forward several potential research topics of this domain.

同期刊论文项目
期刊论文 72 会议论文 39 获奖 3
同项目期刊论文
期刊信息
  • 《计算机工程与科学》
  • 中国科技核心期刊
  • 主管单位:国防科学技术大学
  • 主办单位:国防科学技术大大学计算机学院
  • 主编:王志英
  • 地址:湖南长沙德雅路109号
  • 邮编:410073
  • 邮箱:jsjgcykx@163.net
  • 电话:0731-84576405
  • 国际标准刊号:ISSN:1007-130X
  • 国内统一刊号:ISSN:43-1258/TP
  • 邮发代号:42-153
  • 获奖情况:
  • 湖南省优秀期刊,首届国防科技期刊优秀期刊,《CAJ-CD规范》执行优秀期刊
  • 国内外数据库收录:
  • 英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:16422