位置:立项数据库 > 立项详情页
大规模计算系统故障的主动检测技术研究
  • 项目名称:大规模计算系统故障的主动检测技术研究
  • 项目类别:青年科学基金项目
  • 批准号:60803045
  • 申请代码:F020305
  • 项目来源:国家自然科学基金
  • 研究期限:2009-01-01-2011-12-31
  • 项目负责人:武林平
  • 负责人职称:助理研究员
  • 依托单位:北京应用物理与计算数学研究所
  • 批准年度:2008
中文摘要:

围绕大规模计算系统的可靠性问题,本项目从"主动故障"管理的思路出发,针对三个问题展开研究1)大规模计算系统的可靠性现状及故障特征分析;2)面向主动故障管理的大规模计算系统状态监控机制;3)基于运行时状态信息的故障主动检测、隔离方法。 针对第一个问题,通过分析国内外若干大规模计算系统的实际运行数据,总结能力型计算系统的故障特征,从故障原因、故障传播机制、故障管理策略三方面展开研究。这些研究结果可用于系统研制、系统运行管理的参考。 针对第二个问题,从主动故障管理的需求出发,提出并实现大规模计算系统的"多模式"监控系统。该监控系统在我单位某生产性计算平台部署后,取得很好效果。 针对第三个问题,结合多模式监控系统,把系统运行时状态数据作为输入,通过聚类分析得到故障特征信号;通过分析故障传播路径,提出基于隔离思想的故障在线自动处理机制。 围绕上述研究内容,已发表7篇学术论文,参加一次国际会议、两次国内会议。

结论摘要:

英文主题词Supercomputer; Proactive fault management; Multi-View Monitoring; fault tolerance; Characteristic of failures


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 6
  • 2
  • 0
  • 0
  • 0
相关项目
期刊论文 7 会议论文 12
武林平的项目