采用商用通用微处理器与定制加速计算协处理器相结合的混合体系结构成为构造千万亿次计算机系统的一种可行途径,这种体系结构对大规模并行算法研究提出新的挑战,需要深入研究与混合计算机体系结构相适应的先进并行算法。本项目结合千万亿次异构混合体系结构高性能计算机系统的特点,研究与混合计算机体系结构相适应的先进并行算法,从系统的结点间、结点内和加速处理机间各个层次来开发核心基础算法和典型应用问题的并行性,研制预条件Krylov子空间方法的新型并行算法、粒子输运与粒子模拟典型应用问题的先进混合并行算法和针对协处理器的细粒度并行算法,设计开放式的偏微分方程混合并行计算支撑框架,实现高效能计算。
heterogeneous architecture;parallel algorithm;particle transport equation;Sparse Matrix Vector Multiply;GPU
面向千万亿次混合高性能计算机系统,深入研究与体系结构相适应的先进并行算法,提出了7个核心算法的先进并行算法,研制了3个典型应用混合并行计算软件。7个先进并行算法包括接收驱动优先级计算方法、基于局部深度优先的优先级排序算法、稀疏矩阵向量乘GPU加速算法、基于循环拆分的中子输运GPU加速算法、基于GPU的粒子输运二维确定性非结构化网格数据级并行扫描算法、随机数生成GPU加速算法和矩阵乘在多核多线FT1000微处理器上的并行算法,为典型应用问题的大规模混合并行计算提供了支撑。在典型应用混合并行计算软件研制方面,提出了接收驱动自适应计算粒度并行流水线Sn扫描算法,研制了MPI/OpenMP混合非结构网格上多群中子输运大型并行程序,针对空间网格点采用区域分解划分,计算结点间基于消息传递MPI编程,每个MPI计算进程在计算过程中碰到关于能群的计算,就生成多个OpenMP线程,计算结点内针对能群进行多线程并行计算。数值测试结果表明,非结构网格上的粒子输运问题的混合并行计算能较好地匹配多核机群系统的硬件结构,具有良好的可扩展性,在千万亿次天河-1A上扩展到16384个CPU核。提出了求解非平衡动力学方程的并行算法,将数据进行分布式划分,设计了一种负载平衡方法,为了增加数据局部性提出了一种多机串行计算方法,研制了非平衡动力学方程并行应用程序,具有良好的可扩展性,在千万亿次天河-1A上扩展到32768个CPU核。提出了深穿透粒子输运MC模拟CPU/GPU协同并行算法,结合随机数生成GPU加速算法,研制了非确定性粒子输运MC模拟CPU/GPU大型并行程序,数值测试结果表明,MC粒子输运问题的CPU/GPU混合并行计算具有良好的可扩展性,在千万亿次天河-1A上扩展到4096个CPU/GPU结点,共106496个核。对混合并行计算支撑框架研究进行了初步探索,初步形成面向异构体系结构的粒子输运可扩展并行框架。上述结果验证了深入研究与混合计算机体系结构相适应的先进并行算法的必要性,为典型应用问题的高性能计算提供了一条新的途径。