位置:成果数据库 > 期刊 > 期刊详情页
大规模计算系统的主动故障管理方法
  • ISSN号:1671-4512
  • 期刊名称:华中科技大学学报(自然科学版)
  • 时间:0
  • 页码:20-24
  • 语言:中文
  • 分类:TP393.06[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京应用物理与计算数学研究所计算中心, [2]北京城市学院公共管理学部
  • 相关基金:国家自然科学基金资助项目(60803045);国家高技术研究发展计划资助项目(2006AA01A107)
  • 相关项目:大规模计算系统故障的主动检测技术研究
中文摘要:

为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的实时监控,根据监控数据完成对系统故障的诊断;最后,根据诊断结果实施故障部件的隔离,避免故障的传播,从而减少底层故障对上层应用的影响.该方法在某实际生产性系统上取得较好效果:系统全局故障时间间隔由原来的8 d提高到28 d;故障修复时间由原来的平均10 h缩短到16 min;节点故障引起的失败作业比例由4.6%降低为1.3%.实践证明主动故障管理方法能够降低系统故障开销、提高并行作业的完成率,部署到CNGrid节点的高性能计算系统上,可进一步提高CNGrid的服务质量.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《华中科技大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:华中科技大学
  • 主编:丁烈云
  • 地址:武汉珞喻路1037号
  • 邮编:430074
  • 邮箱:hgxbs@mail.hust.edu.cn
  • 电话:027-87543916 87544294
  • 国际标准刊号:ISSN:1671-4512
  • 国内统一刊号:ISSN:42-1658/N
  • 邮发代号:38-9
  • 获奖情况:
  • 全国优秀科技期刊,首届国家期刊奖,第二届全国优秀科技期刊评比一等奖,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:21013