流处理器(SP),如NVIDIA GPU等,将片内主要资源设计为计算单元,并采用海量线程并发机制,已被证明能高效处理计算密集型并行应用,如在医学成像处理领域取得数百倍的性能加速,在天河-1/A超级计算机系统中也被用作加速处理器。但流处理器在通用性和好用性等方面存在问题计算单元结构的过于简单导致编程困难;CPU和SP存储空间分离,且之间的通讯带宽和延迟很难保证SP计算和数据传输的完全重叠。本课题针对流处理器存在的问题,提出一种新型的同构、基于64位RISC共享前端SIMD多核架构的多线程通用CPU+SP体系结构,该结构吸收了CPU和SP的优点64位RISC计算单元解决了传统流处理器编程困难的难题;共享前端SIMD多核架构有利于提高流数据的并发处理效率;CPU和SP共享存储空间消除了分离带来的数据传输;同构的RISC核支持CPU和SP间计算单元数目和处理能力的灵活配置,可适应不同特征应用。
Homogeneous;RISC;General Purpose;Stream Processor;
在深入分析当前各种流处理器体系结构优势与劣势的基础上,提出一种新型的通用流处理器体系结构同构、基于 64 位 RISC、共享前端 SIMD 多核架构的多线程通用CPU/SP 融合体系结构,该结构能同时吸收传统 CPU 在处理存储密集型/稀疏运算方面的优势和流处理器在处理计算密集型运算方面的优势,消除当前 GPGPU 架构在编程、分布存储等方面的不足,以期适应不同算法特征的应用。本课题已取得的研究成果包括实现了基于 64 位 RISC 核的同构 CPU+SP 体系结构模型和软件模拟器;完成了基于 64 位 RISC、共享前端 SIMD 多核结构的RTL级逻辑设计原代码;在FPGA上实现了同构通用流处理器的原型验证系统。项目实施过程中共培养博士研究生9人,硕士研究生17人,已经毕业17人。课题组发表论文共47篇,申请国家发明专利2项。