为延续摩尔定律,下一个十年片上系统(System on a Chip,SoC)体系架构将沿着从单核到多核到众核的趋势发展,片上网络(Network-on-Chip,NoC)已被业界证明是解决片上多核处理器系统通信问题最具潜力的方案之一;为有效解决互连延时所带来的设计问题,集成电路制造工艺将从传统的平面发展到三维集成。三维片上网络(Three Demension NoC,3D NoC)结合了上述两者的优势,用三维立体架构实现资源间的互连,以构建高带宽、低延时、低功耗的多核处理器片上网络系统,是一个崭新的研究方向。本项目基于申请单位及合作方(KTH)在NoC领域的研究基础,拟从存储的角度开展研究,以3D NoC系统模型为切入点,研究新型三维片上网络存储架构、存储资源映射和存储一致性方案,试图为解决当前SoC设计遇到的瓶颈问题提供新思路与新方案。
Three Dimensional Network on Chip;reconfigurable memory architecture;3D stacking cache;3D GPGPU;3D stacking main memory
存储子系统是片上多核处理器的最重要组成部分之一。片上存储器不但占用了大量的芯片面积和功耗开销,而且影响着多核处理器的性能。将片上多核处理器与3D集成技术相融合,通过堆叠高速缓存和主存到处理器层之上,并利用大量的层间垂直互连增大存储带宽,可以减少存储器的访存延时,提高多核处理器的性能。3D集成技术有望解决多核处理器“存储墙”问题。本项目围绕3D多核处理器存储系统设计问题,从该领域的若干关键问题入手,研究了3D多核处理器存储架构及控制策略。本项目研究主要包括研究了堆叠最后级缓存和主存对3D CMP性能的影响。针对网格结构的3D多核片上网络,提出了一种紧密集成的非均匀缓存架构。采用该结构相比直接堆叠NUCA能最大提升31.71%的系统性能,并可最多减少15.74%的网络通信功耗;设计了一种面向3D CMP的可扩展的非均匀存储访问(NUMA)结构,并讨论了同步和存储器同一性的实现。该分布式NUMA结构可有效支持3D多处理器对存储器的并行访问,并提供高效的系统加速比;缓存一致性是多处理器存储系统的重要研究课题,本项目实现了一种基于微代码的软硬件结合的缓存一致性方案,并进一步提出了面向大规模3D CMP的基于簇的层次化一致性协议。该协议相比扁平目录的一致性,具有更小的通信和目录存储开销;分析了访存延时对GPGPU应用的影响,进而提出了堆叠主存的3D GPGPU架构设计。相比2D GPGPU,堆叠主存的3D GPGPU可最大提升124.1%,平均提升55.8%的系统性能。通过功耗分析,堆叠主存的3D GPGPU也有更好的存储系统功耗效率;提出了一种面向3D GPGPU的可重构本地存储器系统。以GPGPU应用的内核为粒度,动态的将重构存储器配置成寄存器、共享存储器或1级数据缓存。采用可重构存储器的3D GPGPU性能最大提升52.22%,平均提高15.87%;提出了一种Greedy-Lazy混合线程块调度策略,可以有效降低任务分配的不均衡性,提升3D GPGPU的整体性能;三维芯片的散热问题相比于二维芯片更加严峻,因此进行动态热量管理尤为重要。而温度传感器的精确度影响着动态热量管理的效率,同时传统的动态热量管理大都是被动式的。在存在噪声的情况下,本项目利用卡尔曼预测器精确预测多步之后的温度值。相比基于自回归模型,卡尔曼预测器能够减少72.1%~82.5%的平均绝对误差。