位置:立项数据库 > 立项详情页
大规模计算平台的失效分析方法研究
  • 项目名称:大规模计算平台的失效分析方法研究
  • 项目类别:青年科学基金项目
  • 批准号:60703020
  • 申请代码:F020305
  • 项目来源:国家自然科学基金
  • 研究期限:2008-01-01-2010-12-31
  • 项目负责人:詹剑锋
  • 负责人职称:副研究员
  • 依托单位:中国科学院计算技术研究所
  • 批准年度:2007
中文摘要:

因良好的易构建性和可扩展性,机群系统已成为生产性计算平台的首选,但随系统规模的不断增加,失效已经成为一种常态,已有研究显示它对性能和运行成本有着重要的影响,因而成为研究热点。本课题重点研究大规模计算平台上重要事件的因果关系跟踪和相关性挖掘方法及应用。主要研究内容和成果如下(1)提出了基于数据挖掘的具有多维属性的失效分析方法,该方法适用于大规模计算平台,能够自动发现系统的失效规律;(2)提出了基于失效规则的失效预测方法,能预测失效的细节;(3) 提出了多层服务黑盒模型的精确请求跟踪方法;(4)基于该方法发展了性能瓶颈定位和低能耗效率的诊断方法;(5)提出了单程序多数据并行应用的性能瓶颈自动诊断方法,能够自动发现应用的性能瓶颈及其根本原因。该工作发展的新方法和软件工具有利于提高系统的可靠性,能耗效率和性能。

结论摘要:

英文主题词Failure analysis; failure rules and patterns; performance bottleneck location; energy-inefficiency debugging.


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 14
  • 9
  • 2
  • 0
  • 0
相关项目
期刊论文 17 会议论文 2 获奖 2
期刊论文 118 会议论文 22 获奖 2 著作 1
詹剑锋的项目