针对当前大多数弹性伸缩算法存在粒度大、延迟高、开销大等问题,利用缓存思想引入挂起虚拟机,加快虚拟机供给速度;基于自回归滑动平均模型(ARMA)采用二级预测方法设计了敏捷弹性伸缩算法,实现了细粒度的资源分配;通过引入分位数统计、额外资源分配、资源延迟释放等策略,进一步保障服务质量(QoS).采用网易云阅读负载数据进行实验,结果表明:该算法能够进一步节省资源,同时使得服务质量提升.