云计算提供廉价高效的服务是以数量庞大的计算节点和网络传输为基础的,融合了网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等技术。云计算这种模式将会成为各行业在其IT支撑系统中实现弹性计算、资源共享以及节能减排的重要技术手段。在云计算这样复杂的平台中,需要实时监测大量物理节点、虚拟主机、网络状态和用户信息、以及自动故障应急和处理。然而在如此大规模多节点的平台中,某个(某些)节点的故障和错误在云平台中会经常出现,仅靠人力进行所有的监控和修复是远远不够的。为解决此问题,本项目以云平台的实际需求为基础,提出基于结果的推理方法,采取多值决策树、贝叶斯网络、神经网络、支持向量机混合诊断的方式,并且结合多代理技术联合监测网络和主机状况,实现云计算服务中故障的自我诊断和自修复。因此该研究具有重大的理论和现实意义,可以为云计算在各行业的顺利推广和应用打下良好基础。
Relability;Cloud Computing;Hybrid Ciagnosis; Self-healing;Multi-agent
云计算提供廉价高效的服务是以数量庞大的计算节点和网络传输为基础的,融合了网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等技术。它旨在通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的大规模服务平台。为了建立可靠的云计算平台,平台必须以强大的、可扩展的、高效的基础设施为依托,建立自诊断和自修复系统以自主修复各种故障或性能下降问题也成为必然。随着云平台规模的不断扩大与复杂化,其可靠性、可用性以及安全性等问题已成为制约云计算这样大规模综合平台被进一步广泛应用的障碍。 在云计算这样复杂的平台中,为了向用户提供稳定高效的服务,需要实时监测大量物理节点、虚拟主机、网络状态和用户信息以及自动故障应急和处理。然而在如此大规模多节点的平台中,某个(某些)节点的故障和错误在云平台中会经常出现,仅靠人力进行所有的监控和修复是远远不够的。为解决此问题,本项目以云平台的实际需求为基础,提出基于结果的推理方法,采取多值决策树、贝叶斯网络、神经网络、支持向量机混合诊断的方式,并且结合多代理技术联合监测网络和主机状况,通过在云计算平台实施一系列措施来实现云计算服务中故障的自我诊断和自修复,从而使系统可以自主地长期保持健壮的运行状态。 本项目首先对数据的获取与预处理、故障表示框架、基于MDD的混合诊断模型及其诊断机制做了研究,提出一套基于MDD危险分级的成熟并具有普遍实用性的分级标准及消息协商机制,开发出了一套先进的混合诊断与自修复原型系统,提供最精确诊断结果及修复方案。接着在现有云平台上试用原型系统,广泛测试、观察和总结,最终达到降低运维成本,提高云计算服务质量的目的。项目的研究对于云计算平台具备可靠的、健壮的、稳定的、高效的自我诊断和自主维护有着深远的意义,同时也可以进一步促进云计算平台得以被更广泛和快速地应用和推广。