随着多核技术的不断发展,GPU已经成为高性能计算的主流平台,与以往相比,该系统的体系结构具有更多的存储层次和多样化的线程管理,传统的优化技术已经不能满足体系结构敏感型数值算法的性能要求。该类算法必须重构以实现深度挖掘自身的并行性、局部性和非规则计算特性,通过充分发挥GPU的体系结构优势,提高程序性能。为此,本课题面向GPU体系结构,通过定量的测试和分析影响体系结构敏感型数值算法执行效率的各种因素,形成GPU性能模型,刻画体系结构敏感性指标。在此基础上,研究体系结构敏感型数值算法的多层次优化方法及自动调优策略,改善访存局部性、线程间负载均衡、数据读写和流处理方式。研究规则计算和非规则计算统一的性能优化方法。并且将GPU性能模型用于指导体系结构敏感型数值算法的调优方法和策略。本项目研究成果可以很好地提高体系结构敏感型数值算法执行效率,具有重要的理论意义和应用价值。
英文主题词GPU architecture;Numerical algorithms;performance model;autotuner;irregular computing