东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

混合体系结构中有状态硬件加速器的优化

ISSN号：0254-4164
期刊名称：《计算机学报》
时间：0
分类：TP302[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
作者机构：[1]中国科学院计算技术研究所系统结构重点实验室,北京100190, [2]IBM中国研究院,北京100193, [3]中国科学院研究生院,北京100049
相关基金：国家自然科学基金重点项目（60736012）; 国家“九七三”重点基础研究发展规划项目基金（2005CB321600）; 国家“八六三”高技术研究发展计划项目基金（2009AA01Z103）; 北京市自然科学基金（4092044）

关键词：硬件加速, 混合体系结构, 有状态加速器, hardware acceleration, hybrid architecture, stateful acceleration

中文摘要：

在诸多计算领域中,硬件加速器可以代替通用处理器上执行的软件完成专用功能,达到提高性能和降低功耗的目的.网络应用中,许多硬件加速器是无状态的,这就需要一个网络流的全部数据包到达后才能被处理.有状态加速器则可以确保每个数据包到达后即可被处理,因而具有更好的性能和灵活性.由于网络流的并发性,有状态加速器需要维护众多并发网络流的状态,并在需要时进行硬件状态切换,从而增加了加速器的性能开销.该文基于请求队列提出对不同网络流的请求进行动态重排序的方法,其中请求所在的队列可以在片上也可以在片外,从而有效减少加速器的状态切换次数.对多种流行的有状态加速器进行的实验结果表明,该方法可以有效降低加速器的平均响应时间并提高吞吐率.实验结果表明：与传统的FIFO设计对比,解压缩加速器的吞吐率最大提高了26.7%,响应时间最大减少了50%.

英文摘要：

In many computing domains,hardware accelerators can improve throughput and lower power consumption,instead of executing functionally equivalent software on the general-purpose micro-processors cores.While hardware accelerators often are stateless,network processing exemplifies the need for stateful hardware acceleration.The packet oriented streaming nature of current networks enables data processing as soon as the packets arrive rather than when the data of the whole network flow is available.Due to the concurrence of many flows,an accelerator must maintain and switch contexts between many states of the various accelerated streams embodied in the flows,which increases overhead associated with acceleration.This paper proposes to dynamically reorder the requests of different accelerated streams in a hybrid on-chip/memory based request queue to reduce the associated overhead.Through a simulation-based performance study,the effectiveness of the proposed mechanism for different popular stateful accelerators is shown.The experimental results shown the approach can help reduce the average response time significantly and improve throughput up to 26.7% and response time reduction of upto 50% for decompression acceleration compared with the traditional FIFO order design.

同期刊论文项目

　延长摩尔定律的微处理芯片新原理、新结构与新方法研究

期刊论文 87

高性能片上存储系统

期刊论文 118 会议论文 65

同项目期刊论文

龙芯2号处理器的同时多线程设计

System Architecture of Godson-3 Multi-Core Processors

蛋白质序列比对算法在众核结构上的并行与优化

龙芯3号互联系统的设计与实现

基于龙芯处理器的二进制翻译器优化

基于锁CACHE 一致性协议的硬件优化策略

一种递归定义的可扩展片上网络拓扑结构

众核结构上分块LU分解算法的研究

面向流体系的细粒度异步访存调度

基于SRAM和STT-RAM的混合指令Cache设计

通用处理器的高带宽访存流水线研究

“龙腾R2”微处理器数据Cache的设计与实现

超标量处理器中引入SMT技术的性能分析研究

一种直接纠错的流水线设计

一种针对SEU的同步纠错流水线设计

一种片上众核结构共享Cache动态隐式隔离机制研究

众核处理器中使用写掩码实现混合写回/写穿透策略

基于软硬件的协同支持在众核上对1-D FFT算法的优化研究

高性能代价比的两层关联间接转移预测器

众核体系结构对Cilk语言的硬件支持及评测研究

LU分解在众核结构仿真器上的指令级调度研究

PartitionSim-一个面向众核结构的并行模拟器

32位双发射流水线结构RISC微处理器设计

Godson-T众核体系结构上的Broadcast性能优化

LU分解在Godson-Tv1众核体系结构上的并行化研究

场景前颜色缓冲区压缩

高性能多媒体SoC分组访存调度算法

环连接CMP 的缓存一致性协议

支持短向量的32位快速加法器设计

互联网自治域商业关系推测算法

多媒体网络:从内容分发网络到未来互联网

面向多核程序确定性重演的内存竞争记录机制研究

一种类数据流驱动的分片式流处理器体系结构及其编程模型

“龙腾R”微处理器分支处理单元的研究与设计

基于AltiVec技术的浮点乘加单元的设计

一种基于虚拟机的处理器高效原型验证方法

面向应用的流存储系统评测与改进

片上多核处理器存储一致性验证

龙芯3A平台Vxworks移植的研究和实现

Godson-T: An Efficient Many-Core Architecture for Parallel Program Executions

PartitionSim:一个面向众核结构的并行模拟器

基于存储队列的Cache访问性能优化研究

嵌入式系统建模理论与方法

硬件结构支持的基于同步的高速缓存一致性协议

An Efficient and Flexible Task Management for Many Cores.

二进制翻译中解析多目标分支语句的图匹配方法

指导cache静态划分的程序性能profiling优化技术

提高堆数据局部性的动态池分配技术

改进的非对称多通道路由器结构及其分析模型

众核处理器cache一致性研究综述

片上实时功耗监控与估测的分析设计

GALS处理器的功耗有效性方法研究

Physical Implementation of the 1GHz Godson-3 Quad-Core Microprocessor

一种面向多核处理器的通用可调试性架构

具有可变数据格式的透明度压缩

基于二进制插桩的ASIP处理器指令集混合仿真方法

基于共享存储的高可伸缩嵌入式集群模型

基于插桩分析的Java虚拟机自适应预取优化框架

片上多处理器中延迟和容量权衡的Cache结构

Chip Multithreaded Consistency Model

跨平台系统级虚拟机的访存优化

一种基于RAM的降低异构多核切换开销的方法

龙芯3A多核处理器系统级性能优化与分析

基于硬件cache锁机制的Java虚拟机即时编译器优化

基于确定性的处理器硅后调试系统

众核处理器片上同步机制和评估方法研究

二进制翻译控制转移的软硬件协同设计

一种新型高效容错体系结构的研究与实现

支持AltiVec技术的多媒体协处理单元的研究

支持AltiVec技术的可分裂式加法器研究与设计

基于AltiVec技术的短向量单元双发射策略的研究

一种新颖的向量基-8布斯乘加器的设计

面向实时流处理的多核多线程处理器访存队列

单颗粒重构软件EMAN算法分析与高效并行实现

浮点和与点积计算结构研究

浮点乘加部件的自动化形式验证

DCSRC：一种基于龙芯SoC的控制流与数据流分离的可重构计算集群

基于向量扩展多核处理器的矩阵乘法算法优化研究

H．264去块滤波算法在众核结构上的并行优化

谓词执行技术在类数据流体系结构中的实现和优化

利用数据预取机制降低块执行模型的访存延迟

Design and analysis of a UWB low-noise amplifier in the 0.18 μm CMOS process

LU分解在Godson—Tv1众核体系结构上的并行化研究

一个用于高速信号传输的对PVT变化不敏感的低功耗锁相环

高性能代价比的两层关联间接转移预测器设计

基于软硬件的协同支持在众核上对1-DFFT算法的优化研究

一种基于反馈信息的地址寄存器提升方法

蛋白质序列比对算法在众核结构上的并行优化

基于锁的Cache一致性协议的硬件优化策略

一个支持访存带宽敏感调度的跨执行优化方法

存储器模块测试系统的设计

基于亚阈值漏电流的数据Cache低功耗控制策略研究

龙芯处理器上的TLB性能优化技术

Making Effective Decisions in Computer Architects＇ Real-World： Lessons and Experiences with Godson-2 Processor Designs

一种快速的滑动标记缩并垃圾收集算法

The Godson Processors： Its Research, Development, and Contributions

龙芯2号处理器的同时多线程设计

龙芯3号互联系统的设计与实现

众核结构上分块LU分解算法的研究

New Methodologies for Parallel Architecture

通用处理器的高带宽访存流水线研究

一种片上众核结构共享Cache动态隐式隔离机制研究

众核处理器中使用写掩码实现混合写回/写穿透策略

众核体系结构对Cilk语言的硬件支持及评测研究

LU分解在众核结构仿真器上的指令级调度研究

Godson-T众核体系结构上的Broadcast性能优化

场景前颜色缓冲区压缩

带类型恢复的编译器源源翻译技术

片上多核处理器存储一致性验证

Godson-T: An Efficient Many-Core Architecture for Parallel Program Executions

高速低功耗传输电路的时钟系统设计

硬件结构支持的基于同步的高速缓存一致性协议

基于物理反标的处理器功耗建模与评估方法

Testing content addressable memories with physical fault models

基于遗传算法的全芯片级覆盖率驱动随机验证技术

片上实时功耗监控与估测的分析设计

一种基于元操作的宏模块功耗建模方法

一种模块级的温度感知漏电功耗估计策略

GALS处理器的功耗有效性方法研究

Physical Implementation of the 1GHz Godson-3 Quad-Core Microprocessor

基于长生命周期对象的混合垃圾收集

具有可变数据格式的透明度压缩

基于插桩分析的Java虚拟机自适应预取优化框架

一个基于微处理器功能模型的可靠度评估系统

片上多处理器中延迟和容量权衡的Cache结构

嵌入式处理器TLB设计方法研究

同时多微线程体系结构研究

跨平台系统级虚拟机的访存优化

一种基于RAM的降低异构多核切换开销的方法

龙芯3A多核处理器系统级性能优化与分析

基于硬件cache锁机制的Java虚拟机即时编译器优化

众核处理器片上同步机制和评估方法研究

二进制翻译控制转移的软硬件协同设计

嵌入式处理器在片调试功能的验证

结合访存失效队列状态的预取策略

龙芯2号微处理器的功能验证

一种高性能北桥芯片的设计及性能分析

一种基于SAT的运算电路查错方法

一种向分支指令后插入冗余指令的容错微结构

A 10 Gb/s receiver with half rate period calibration CDR and CTLE/DFE combiner

浮点乘加部件的自动化形式验证

利用新型的电源屏蔽实现方法降低测试功耗

采用同步分析的零延迟GRLS通信机制

龙芯3号多核处理器的低功耗测试技术

片上偏差模型下Mesh结构时钟网络性能不确定性的分析

基于向量扩展多核处理器的矩阵乘法算法优化研究

Design and analysis of a UWB low-noise amplifier in the 0.18 μm CMOS process

LU分解在Godson—Tv1众核体系结构上的并行化研究

一个用于高速信号传输的对PVT变化不敏感的低功耗锁相环

高性能代价比的两层关联间接转移预测器设计

基于软硬件的协同支持在众核上对1-DFFT算法的优化研究

蛋白质序列比对算法在众核结构上的并行优化

龙芯处理器上的TLB性能优化技术

基于程序周期行为的快速模拟方法

Storus：一个二维片上网络拓扑结构

针对龙芯2号结构特征的GCC优化

基于SimpleScalar的龙芯CPU模拟器Sim—Godson

嵌入式处理器中访存部件的低功耗设计研究

龙芯2E北桥的设计和性能优化

基于覆盖率模型的AMBA接口随机验证方法

一种基于容量复用的异构CMP Cache

一种基于龙芯CPU的结构级功耗评估新方法

龙芯1号处理器的故障注入方法与软错误敏感性分析

龙芯2号微处理器浮点除法功能部件的形式验证

Xmesh：一个mesh—like片上网络拓扑结构

一种静态电路兼容的4GHz64位动态加法器设计

High Performance General-Purpose Microprocessors： Past and Future

一种快速的滑动标记缩并垃圾收集算法

Implementing a 1GHz Four-Issue Out-of-Order Execution Microprocessor in a Standard Cell ASIC Methodology

基于龙芯CPU的多核全系统模拟器SimOS—Goodson

使用支持向量机的微处理器验证向量优化方法

一种基于微基准程序和理想上限的处理器性能分析方法

一种分片式多核处理器的用户级模拟器

通过增强数据访问局部性提高多路复用FIR滤波器计算性能

多核处理器片上网络trace压缩方法

龙芯2号原型系统北桥的设计与实现

高性能通用处理器中的漏电功耗优化

龙芯1号处理器结构级功耗评估有效性分析

JTAG调试通信接口的软件模拟

Parallel Error Detection for Leading Zero Anticipation

通用处理器设计中硬件仿真验证

The Godson Processors： Its Research, Development, and Contributions

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433