高可用性一直都是软件可信性的重要科学问题。如今,云平台作为互联网软件运行环境已成为主流趋势,然而由于云环境的系统异构性、业务动态性、环境开放性等,使得各类软硬件故障、用户误操作,以及恶意攻击等频发,对云环境中软件服务高可用提出极大挑战。本项目针对云环境故障所导致的软件服务中断及恢复时间长、代价大等问题,研究面向虚机服务的时空属性高可用模型与评价方法,构建基于虚拟化技术的"灵活调度、高效快照、在线迁移、快速恢复"的高可用技术体系。在运行环境迁移方面,主要研究基于指令执行重放的同步机制和基于混合式内存的在线迁移方法;在运行环境快照方面,主要研究虚拟磁盘文件的不停机快照与回卷机制,以及面向应用、虚拟机和虚拟网络的多尺度在线快照技术;最后在虚拟化云平台iVIC中进行试验和应用。本项目将为云环境软件服务提供高可用建模和保障技术体系,有助于提高云环境中服务的容变、容错能力,从而保障服务的可信可持续。
cloud computing;virtualization;VM monitor;VM migration;VM snapshot
随着云计算的广泛应用,云环境故障所导致的软件服务中断问题也越来越受到人们的重视。可用性保障技术成为当前云计算相关系统技术和应用的重要问题,已得到许多国家政府、学术界和产业界的共同关注。本项目围绕“网络化软件可信性”科学问题,针对云环境故障所导致的软件服务中断及恢复时间长、代价大等问题,基于面向虚机服务的高可用体系结构和评价方法,构建基于虚拟化技术的监控、高效快照、在线迁移高可用技术。项目的内容包括在虚拟机监控方面,基于虚拟机自省技术,设计并实现了一种应用于云计算平台的虚拟机进程监控系统,提出了针对多操作系统的进程监控方法,可快速检测多数恶意进程及操作并对恶意进程的隔离;在虚拟机迁移技术方面,主要设计了基于页面合并技术及组播技术的虚拟机迁移方法,给出了一种资源感知的虚拟机放置策略,有效缩减了虚拟集群迁移过程中的迁移持续时间和数据传输量;在虚拟机快照技术方面,主要提出了基于写时复制技术的虚拟集群在线快照方法,提出了一种适用于虚拟化环境下的网络一致性协议,有效减小了快照过程中的停机时间和网络中断时间。基于项目所开展的理论和技术工作,依托虚拟化云平台iVIC ,研制了基于虚拟化的高可用保障原型系统,并已与中国软件评测中心、阿里云开展了联合或应用合作。 项目取得的研究成果已达到并部分超出了项目任务要求,在可用性和虚拟化领域的知名会议DSN、VEE、LISA、HPCC等国际会议共录用、发表学术论文8篇;申请国家发明专利3项;人才培养方面,已毕业硕士3人。项目组多次应邀在国际会议SGK 2013、中日三校交流和华为北研所专家大讲堂等作交流报告,并与英国Leeds大学、美国伊利诺伊理工大学和美国伯克利大学等进行了广泛国际合作和交流。