以GPU为代表的加速器增强型体系结构极大地提高了超级计算机的性能,但大规模并行程序所能够取得的实际性能与针对这一新型硬件体系结构所做的性能优化密切相关。由于应用的复杂性,在相对简单的基准测试程序上所采用的优化方法一般很难在实际应用上取得等同的效果,为了提高大规模并行应用在GPU集群上的实际性能,本研究提出"协同优化"的思路,即通过综合分析应用与硬件体系结构的特点,以整个并行程序运行的关键路径分析与度量为基础建立性能模型,将扩展性与负载均衡算法、结点间通信方法、针对GPU的并行算法设计及与CPU的交互方法、编译时与运行时优化等多个方面相结合,通过众多优化因子的有效协同来全面提高大规模并行程序在超级计算机上的实际性能。本研究以典型的实际大型科学应用程序为基础展开,但该模型与方法不仅可为其它大型应用在加速器增强型体系结构上的优化,而且也可为未来新型硬件体系结构的设计与优化提供参考。
英文主题词GPU Cluster;Co-Optimization;Large Scale Parallel Application;Accelerator Augmented Architecture;Performance Model