因良好的易构建性和可扩展性,机群系统已成为生产性计算平台的首选,但随系统规模的不断增加,失效已经成为一种常态,已有研究显示它对性能和运行成本有着重要的影响,因而成为研究热点。本课题重点研究大规模计算平台上重要事件的因果关系跟踪和相关性挖掘方法及应用。主要研究内容和成果如下(1)提出了基于数据挖掘的具有多维属性的失效分析方法,该方法适用于大规模计算平台,能够自动发现系统的失效规律;(2)提出了基于失效规则的失效预测方法,能预测失效的细节;(3) 提出了多层服务黑盒模型的精确请求跟踪方法;(4)基于该方法发展了性能瓶颈定位和低能耗效率的诊断方法;(5)提出了单程序多数据并行应用的性能瓶颈自动诊断方法,能够自动发现应用的性能瓶颈及其根本原因。该工作发展的新方法和软件工具有利于提高系统的可靠性,能耗效率和性能。
英文主题词Failure analysis; failure rules and patterns; performance bottleneck location; energy-inefficiency debugging.