东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

可选主元LU分解流水线算法设计与FPGA实现

ISSN号：1002-0470
期刊名称：《高技术通讯》
时间：0
分类：TP312[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术] TP301.6[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
作者机构：[1]国防科技大学计算机学院,长沙410073
相关基金：863计划（2007AA01Z106）和国家自然科学基金（60633050,60621003）资助项目.

作者：牛新[1], 周杰[1], 窦勇[1], 雷元武[1]

关键词： LU, 分解, 流水线, 并行算法, 列主元选取, 现场编程门阵列(FPGA), LU decomposition, pipeline, parallel algorithm, partial pivot, field-programmable gate arrays （FPGA）

中文摘要：

提出了一种可以进行列主元选取的细粒度LU分解流水线算法并在现场编程门阵列（FPGA）上得到了实现。该算法可以在进行列主元选取的同时，充分利用数据的重用性，以减少数据读写次数。对其中的关键运算实现了细粒度全流水，提高了分解性能。与Celeron（R）3．07GHz通用处理器主机相比可以得到平均6到7倍的加速比。与其他在FPGA上实现的LU分解算法相比，该算法在占用相对较少资源和保持高分解效率的前提下提高了计算的精确度和稳定性。

英文摘要：

This paper presents a fine-grained pipeline algorithm for LU decomposition with column partial pivoting and gives the description of its implementation on field-programmable gate arrays （FPGA）. The pipeline algorithm makes full use of the data reuse property of the LU decomposition during the column partial pivoting in order to reduce the I/O cost. Since the critical functions are pipelined in fine-granularity, the decomposition performance can be improved. The experimental result shows that the computing speed can be 6 times higher than that of the software execution of the serial algorithm on Celeron（R） 3.07GHz. Compared with other FPGA implementations, the proposed design has the better computational accuracy and stability due to the pivoting scheme, while demanding less resource and keeping the high efficiency.

同期刊论文项目

高效能并行计算机体系结构研究

期刊论文 72 会议论文 39 获奖 3

千万亿次高性能计算关键技术

期刊论文 36

同项目期刊论文

流处理器上基于参数模型的长流分段技术

SRF Coloring: Stream Register File Allocation via Graph Coloring

Managing Data-Objects in Dynamically Reconfigurable Caches

基于自适应随机行走的可扩展无偏抽样方法

一种基于关键属性的优化数据一致性维护方法

Cell处理器上软件缓存的设计与实现

面向CC-NUMA体系结构的事务内存冲突规避方法

单变量区间线性不等式抽象域

面向非一致Cache的智能多跳提升技术

Imagine流处理器上流的优化组织方法

基于模糊聚类分析的构件并行技术研究

P2P覆盖网中的聚类研究综述

一种基于数据相关性的优化数据一致性维护方法

面向多线程多道程序的加权共享Cache划分

面向多兴趣区域图像处理应用的高效无冲突并行访问存储模型

通过基于COTS器件的软件容错技术提高空间高可靠计算机的性能

基于Game理论的μ-演算公理化

DOOC：一种能够有效消除抖动的软硬件合作管理Cache

FT64并行系统上的EP和GEMM并行算法设计与实现

网络距离预测技术研究

高效的部分冗余容错编译：复制错误流关键子图

非平衡进程到达模式下MPI广播的性能优化方法

大规模并行计算机系统硬件故障容错技术综述

并行计算系统度量指标综述

利用冗余进程实现MPI程序错误检测

双核处理器性能最优的共享Cache划分

矩阵LU分解的容错并行算法设计与实现

激光等离子体X射线源的应用

异构环境下MPI通信技术研究

基于Lustre文件系统的MPI检查点系统实现技术与性能测试

StreamJacobi： Efficient implementation of 2-D Jacobi on a stream processor

ETL的符号化模型检验

事务存储系统

光突发交换中冲突解决的GHA-TS机制

BOIN：一种新型无缓存高性能计算机光互连网络

流编程模型下的存储一致性模型

流处理器上基于参数模型的长流分段技术

光突发交换网络中信道调度的PBR-VF算法

SRF Coloring: Stream Register File Allocation via Graph Coloring

FPGA Accelerator for Wavelet-based Automated Global Image Registration

无缓冲光互连网络的延时性能分析及优化

精确分类的视角无关人脸检测方法与硬件加速体系结构

A coarse-grained reconfigurable computing architecture with loop self-pipelining

Fine-grained Parallel RNAalifold Algorithm for RNA Secondary Structure Prediction on FPGA, Proceedin

Fine-grained parallel RNA secondary structure prediction using SCFGs on FPGA, Journal of Parallel Co

A reconfigurable architecture for rotation invariant multi-view face detection based on a novel two-

Fpqrna: Hardware-Accelerated Qrna Package for noncoding RNA Gene Detecting on FPGA

滑动窗口应用循环展开及其数据通路生成

面向滑动窗口应用的设计空间探索方法

支持循环自动流水线的粗粒度可重构阵列体系结构

光突发交换中冲突解决的GHA策略

主从式单边异构多核处理器编程模型和编译架构

一种改进的基于FPGA 的32位对数变换器的设计与实现

自动映射多循环程序到有限FPGA资源的参数化流水线模板

大矩阵QR分解的FPGA设计与实现

HybridTCache :一种基于专用事务Cache的软硬件协同事务内存系统

自相似网络流量预测研究

科学计算程序在FT64流处理器上的实现、优化和评测

基于简化Trace的动态隐式断言执行

一种新的处理器间光互连网络

面向Cache优化的向量指令集设计与测评

一种面向多核处理器粗粒度的应用级Cache划分方法

硬件归约的延迟模型和调度策略

位平面编码存储优化算法及FPGA设计

面向多核NUCA共享数据竞争问题的Bank一致性技术

基于设备代理机制的虚拟机动态迁移技术研究

A Unified Co-Processor Architecture for Matrix Decomposition

基于参数化存储结构的滑动窗口IP核自动生成

产出率并行加速比模型

基于事务回退的事务存储系统的故障恢复

Cell处理器上软件缓存的设计与实现

面向非一致Cache的智能多跳提升技术

Imagine流处理器上流的优化组织方法

基于模糊聚类分析的构件并行技术研究

面向多兴趣区域图像处理应用的高效无冲突并行访问存储模型

FT64并行系统上的EP和GEMM并行算法设计与实现

大规模并行计算机系统硬件故障容错技术综述

并行计算系统度量指标综述

利用冗余进程实现MPI程序错误检测

环网中的维度气泡流控与自适应路由算法

LHFR：面向长事务的层次式失效恢复算法

虚拟化与操作系统辨析

HybridTCache：一种基于专用事务Cache的软硬件协同事务内存系统

WSANs中基于跳步数自适应的路由算法

StreamJacobi： Efficient implementation of 2-D Jacobi on a stream processor

光突发交换中冲突解决的GHA—TS机制

高性能互连网络中的MSFS集成调度算法

基于多物光的体全息存储技术

扩展双精度浮点并行计算：MPI方法

一种改进的基于FPGA的32位对数变换器的设计与实现

Multi-core optimization for conjugate gradient benchmark on heterogeneous processors

期刊信息

《高技术通讯》
北大核心期刊（2011版）

主管单位:中华人民共和国科学科技部
主办单位:中国科学技术信息研究所
主编：赵志耘
地址：北京市三里河路54号
邮编：100045
邮箱：hitech@istic.ac.cn
电话：010-68514060 68598272

国际标准刊号：ISSN：1002-0470
国内统一刊号：ISSN：11-2770/N
邮发代号:82-516

获奖情况:
《中国科学引文数据》刊源,《中国科技论文统计与分析》刊源

国内外数据库收录:
美国化学文摘（网络版）,荷兰文摘与引文数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,英国英国皇家化学学会文摘

被引量:12178