大规模计算系统故障的主动检测技术研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

大规模计算系统故障的主动检测技术研究

项目名称：大规模计算系统故障的主动检测技术研究
项目类别：青年科学基金项目
批准号：60803045
申请代码：F020305
项目来源：国家自然科学基金
研究期限：2009-01-01-2011-12-31

项目负责人：武林平
负责人职称：助理研究员
依托单位：北京应用物理与计算数学研究所
批准年度：2008

中文摘要：

围绕大规模计算系统的可靠性问题，本项目从"主动故障"管理的思路出发，针对三个问题展开研究1）大规模计算系统的可靠性现状及故障特征分析；2）面向主动故障管理的大规模计算系统状态监控机制；3）基于运行时状态信息的故障主动检测、隔离方法。针对第一个问题，通过分析国内外若干大规模计算系统的实际运行数据，总结能力型计算系统的故障特征，从故障原因、故障传播机制、故障管理策略三方面展开研究。这些研究结果可用于系统研制、系统运行管理的参考。针对第二个问题，从主动故障管理的需求出发，提出并实现大规模计算系统的"多模式"监控系统。该监控系统在我单位某生产性计算平台部署后，取得很好效果。针对第三个问题，结合多模式监控系统，把系统运行时状态数据作为输入，通过聚类分析得到故障特征信号；通过分析故障传播路径，提出基于隔离思想的故障在线自动处理机制。围绕上述研究内容，已发表7篇学术论文，参加一次国际会议、两次国内会议。

中文主题词：超级计算机；主动故障管理；多模式监控；容错；故障特征

结论摘要：

英文主题词Supercomputer; Proactive fault management; Multi-View Monitoring; fault tolerance; Characteristic of failures

成果综合统计