东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

浮点和与点积计算结构研究

ISSN号：1000-1220
期刊名称：《小型微型计算机系统》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]西北工业大学计算机学院,西安710072
相关基金：基金项目：国家自然科学基金项目（60773223,61003037,60736012）资助;国家“八六三”高技术研究发展计划项目（2009AA012110）资助.

关键词：浮点和, 点积计算, 舍入误差, 硬件结构, floating-point summation, dot-product computing, rounding error, architecture

中文摘要：

浮点数求和与点积计算在科学计算，信号处理，图像处理等领域中广泛应用．对浮点和与点积计算的硬件结构进行了研究．在只有一次舍入误差的前提下，提出一种通用的浮点数求和算法和结构，利用重对阶方法，解决了多个粘贴位和尾数过抵消所产生的精度损失问题．然后将这种算法移植到浮点点积计算中．为了增加结构的通用性，将提出的结构和常用的SIMD计算单元进行结合．根据提出的算法，设计实现了FADIM和FDP4的硬件结构，和使用离散的加法器和乘法器来实现求和与点积的方法相比，计算速度分别提高了20．4%和42．1％．

英文摘要：

Floating-point（ FP ） summation and dot-product computing are widely used in many fields,such as scientific computing, digital signal processing and graphic processing. A general FP summation architecture which has one rounding error is proposed in this paper. A realignment method is employed in our architecture to eliminate the errors caused by the catastrophic cancellation or multisticky bits. Then, the architecture to computing dot-product is proposed based on the FP summation architecture. Furthermore, dotproduct is combined with a SIMD unit. Lastly, A single precision FADD4 and a FDP4 are implemented which could improve the computing speed by 20.4% and 42. 1% respectively, compared with the traditional methods which employ discrete FP adders and multipliers to achieve FP Summation and dot product.

同期刊论文项目

高性能片上存储系统

期刊论文 118 会议论文 65

基于虚拟机的微体系结构级仿真原型快速构造方法研究

期刊论文 16 会议论文 21 专利 2 著作 1

片上多核主动适应存储体系结构研究

期刊论文 23 会议论文 13 专利 2

同项目期刊论文

面向流体系的细粒度异步访存调度

基于SRAM和STT-RAM的混合指令Cache设计

基于SESC仿真器的存储预取器设计

龙芯3A平台Vxworks移植的研究和实现

改进的非对称多通道路由器结构及其分析模型

片上多核处理器末级共享Cache可重用数据预测机制

众核处理器cache一致性研究综述

一种自主恢复的高可靠存储控制器设计

ARINC659航空总线监控器的设计

性能约束下功耗感知的电压频率岛NoC映射

基于建模的NoC性能评价方法研究

Study on performance evaluation of crossbar switch interconnection based probability distribution

低功耗片上网络映射的遗传及蚂蚁融合算法

基于安全日志的问责技术的研究

基于安卓平台的井控信息处理系统的设计实现

面向流体系的细粒度异步访存调度

基于SRAM和STT-RAM的混合指令Cache设计

支持短向量的32位快速加法器设计

基于SESC仿真器的存储预取器设计

片上多核中一种共享感知的数据主动推送Cache技术

“龙腾R”微处理器分支处理单元的研究与设计

多阶段编程定制数字电路

基于AltiVec技术的浮点乘加单元的设计

一种基于虚拟机的处理器高效原型验证方法

x86指令集兼容处理器中微指令的设计与验证

WFQ权重比较电路的设计

基于AltiVec的指数运算的设计与实现

多核多线程处理器二级Cache预取结构的设计

基于存储队列的Cache访问性能优化研究

嵌入式系统建模理论与方法

改进的非对称多通道路由器结构及其分析模型

面向实时流处理的多核多线程处理器访存队列

单片多处理器系统中交叉开关的设计与实现

一种基于PLI和Simics的微处理器协同验证平台

龙芯2号处理器的同时多线程设计

System Architecture of Godson-3 Multi-Core Processors

蛋白质序列比对算法在众核结构上的并行与优化

龙芯3号互联系统的设计与实现

基于龙芯处理器的二进制翻译器优化

基于锁CACHE 一致性协议的硬件优化策略

一种递归定义的可扩展片上网络拓扑结构

众核结构上分块LU分解算法的研究

面向流体系的细粒度异步访存调度

基于SRAM和STT-RAM的混合指令Cache设计

通用处理器的高带宽访存流水线研究

“龙腾R2”微处理器数据Cache的设计与实现

超标量处理器中引入SMT技术的性能分析研究

一种直接纠错的流水线设计

一种针对SEU的同步纠错流水线设计

一种片上众核结构共享Cache动态隐式隔离机制研究

众核处理器中使用写掩码实现混合写回/写穿透策略

基于软硬件的协同支持在众核上对1-D FFT算法的优化研究

高性能代价比的两层关联间接转移预测器

众核体系结构对Cilk语言的硬件支持及评测研究

LU分解在众核结构仿真器上的指令级调度研究

PartitionSim-一个面向众核结构的并行模拟器

32位双发射流水线结构RISC微处理器设计

Godson-T众核体系结构上的Broadcast性能优化

LU分解在Godson-Tv1众核体系结构上的并行化研究

场景前颜色缓冲区压缩

高性能多媒体SoC分组访存调度算法

环连接CMP 的缓存一致性协议

支持短向量的32位快速加法器设计

互联网自治域商业关系推测算法

多媒体网络:从内容分发网络到未来互联网

面向多核程序确定性重演的内存竞争记录机制研究

一种类数据流驱动的分片式流处理器体系结构及其编程模型

“龙腾R”微处理器分支处理单元的研究与设计

基于AltiVec技术的浮点乘加单元的设计

一种基于虚拟机的处理器高效原型验证方法

面向应用的流存储系统评测与改进

片上多核处理器存储一致性验证

龙芯3A平台Vxworks移植的研究和实现

Godson-T: An Efficient Many-Core Architecture for Parallel Program Executions

PartitionSim:一个面向众核结构的并行模拟器

基于存储队列的Cache访问性能优化研究

嵌入式系统建模理论与方法

硬件结构支持的基于同步的高速缓存一致性协议

An Efficient and Flexible Task Management for Many Cores.

二进制翻译中解析多目标分支语句的图匹配方法

指导cache静态划分的程序性能profiling优化技术

提高堆数据局部性的动态池分配技术

改进的非对称多通道路由器结构及其分析模型

众核处理器cache一致性研究综述

片上实时功耗监控与估测的分析设计

GALS处理器的功耗有效性方法研究

Physical Implementation of the 1GHz Godson-3 Quad-Core Microprocessor

一种面向多核处理器的通用可调试性架构

具有可变数据格式的透明度压缩

基于二进制插桩的ASIP处理器指令集混合仿真方法

基于共享存储的高可伸缩嵌入式集群模型

基于插桩分析的Java虚拟机自适应预取优化框架

片上多处理器中延迟和容量权衡的Cache结构

Chip Multithreaded Consistency Model

跨平台系统级虚拟机的访存优化

一种基于RAM的降低异构多核切换开销的方法

龙芯3A多核处理器系统级性能优化与分析

基于硬件cache锁机制的Java虚拟机即时编译器优化

基于确定性的处理器硅后调试系统

众核处理器片上同步机制和评估方法研究

二进制翻译控制转移的软硬件协同设计

一种新型高效容错体系结构的研究与实现

支持AltiVec技术的多媒体协处理单元的研究

支持AltiVec技术的可分裂式加法器研究与设计

基于AltiVec技术的短向量单元双发射策略的研究

一种新颖的向量基-8布斯乘加器的设计

面向实时流处理的多核多线程处理器访存队列

单颗粒重构软件EMAN算法分析与高效并行实现

浮点乘加部件的自动化形式验证

DCSRC：一种基于龙芯SoC的控制流与数据流分离的可重构计算集群

基于向量扩展多核处理器的矩阵乘法算法优化研究

H．264去块滤波算法在众核结构上的并行优化

谓词执行技术在类数据流体系结构中的实现和优化

利用数据预取机制降低块执行模型的访存延迟

Design and analysis of a UWB low-noise amplifier in the 0.18 μm CMOS process

混合体系结构中有状态硬件加速器的优化

LU分解在Godson—Tv1众核体系结构上的并行化研究

一个用于高速信号传输的对PVT变化不敏感的低功耗锁相环

高性能代价比的两层关联间接转移预测器设计

基于软硬件的协同支持在众核上对1-DFFT算法的优化研究

一种基于反馈信息的地址寄存器提升方法

蛋白质序列比对算法在众核结构上的并行优化

基于锁的Cache一致性协议的硬件优化策略

一个支持访存带宽敏感调度的跨执行优化方法

存储器模块测试系统的设计

基于亚阈值漏电流的数据Cache低功耗控制策略研究

龙芯处理器上的TLB性能优化技术

Making Effective Decisions in Computer Architects＇ Real-World： Lessons and Experiences with Godson-2 Processor Designs

一种快速的滑动标记缩并垃圾收集算法

The Godson Processors： Its Research, Development, and Contributions

期刊信息

《小型微型计算机系统》
中国科技核心期刊

主管单位:中国科学院
主办单位:中国科学院沈阳计算技术研究所
主编：林浒
地址：沈阳市浑南新区南屏东路16号
邮编：110168
邮箱：xwjxt@sict.ac.cn
电话：024-24696120 024-24696190-8870

国际标准刊号：ISSN：1000-1220
国内统一刊号：ISSN：21-1106/TP
邮发代号:8-108

获奖情况:
中国自然科学核心期刊,中国科学引文数据库来源期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:23212