东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

面向GPU的循环合并

ISSN号：1002-0470
期刊名称：《高技术通讯》
时间：0
分类：TP311.1[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]中国科学院计算技术研究所计算机体系结构国家重点实验室,北京100190, [2]中国科学院研究生院,北京100039
相关基金：973计划（2011CB302504,2011ZX01028-001-002）,863计划（2009AA01A129,2012AA010902）和国家自然科学基金（60970024,60925009,60921002）资助项目.

作者：杨扬[1,2], 崔慧敏[1], 冯晓兵[1]

关键词：通用图形处理单元(GPU), 循环合并, 并行, CUDA, 循环间数据重用, general purpose graphic processing unit （GPU）, loop fusion, parallelization, CUDA, inter-loop data reuse

中文摘要：

针对现有的将C或Fortran程序映射到通用图形处理单元（GPU）的自动转换工具主要关注将单个循环生成一个独立的GPU内核，从而阻碍了对循环间数据重用的利用的问题，提出一种新的面向GPU的循环合并的代码变换方法，该方法通过循环分块（stripmining）和冗余计算等手段达到消除迭代间数据依赖的目的，并可充分利用GPU片上的共享内存进行线程间数据交换，从而将此类程序高效地映射到GPU上。通过典型程序在GPU上的实验表明，该新方法由于能够减少对全局内存的访问，带来了最多高达1．96倍的加速比。

英文摘要：

To solve the problem that current tools for automatical mapping of C or Fortran programs onto a general purpose graphic processing unit （GPU） mainly aim at generating an independent GPU kernel for each individual loop, which hinders the exploitation of inter-loop data reuse, this paper presents a novel GPU-oriented code transforma- tion approach for loop fusion. The approach integrates strip mining and redundant computation to eliminate data de- pendence between iterations, and takes advantage of GPU＇ s on-chip shared memory to achieve inter-thread data ex- change so as to map this kind of programs onto GPUs effectively. The experiment on various programs demonstrate that the proposed framework can achieve the 1.96-fold speedup because of its reduction of global memory access.

同期刊论文项目

异构平台上以数据为中心的多线程编程模型扩展

期刊论文 6 会议论文 6

Exascale计算的基础研究

期刊论文 48 会议论文 36 专利 15

超并行高效能计算机体系结构与设计方法研究

期刊论文 143 会议论文 81 获奖 3 专利 9 著作 4

同项目期刊论文

任务并行编程模型研究与进展

基于统计学习分析多核间性能干扰

支持算法组件自动替换的编程范式及编译框架

SMAT: An Input Adaptive Auto-Tuner for Sparse Matrix-Vector Multiplication

Optimizing Parallel S (n) Sweeps on Unstructured Grids for Multi-Core Clusters

众核结构上分块LU分解算法的研究

LU分解在众核结构仿真器上的指令级调度研究

全局图像特征分析与实时层次化消失点检测

采用旋转匹配的二进制局部描述子

HMTT:A Hybrid Hardware/Software Tracing System for Bridging the DRAM Access Trace’s Semantic G

Extra-dof-free and linearly independent enrichments in GFEM

一个针对并行模拟引擎的性能评测实例

一种监测函数语义信息访存地址序列的方法

面向并发性能下降的调度策略的综述

基于消息的内存系统关键技术研究

Godson-T: An Efficient Many-Core Architecture for Parallel Program Executions

无锁同步的细粒度并行介度中心算法

PartitionSim:一个面向众核结构的并行模拟器

Revisiting Multiple Pattern Matching Algorithms for Multi-core Architecture

MALK:一种高效处理大规模键值的MapReduce框架

针对组相联缓存的无效缓存路访问混合过滤机制研究

二进制翻译中标志位的模式化翻译方法

Dawning Nebulae: A PetaFLOPS Supercomputer with a Heterogeneous Structure

任务并行编程模型研究与进展

基于硬件辅助的用户态并行程序记录方法

What Hill-Marty model learn from and break through Amdahl’s law?

一种带有无效缓存路访问过滤机制的低功耗高速缓存

一种针对片上众核结构共享末级缓存的改进的LFU替换算法

基于统计学习分析多核间性能干扰

动态容忍和检测非对称数据竞争

多核结构片上网络性能-能耗分析及优化方法

Dynamic I/O-Aware Scheduling for Batch-Mode Applications on Chip Multiprocessor Systems of Cluster P

众核处理器片上同步机制和评估方法研究

移动设备应用程序的体系结构特征分析

H．264去块滤波算法在众核结构上的并行优化

二进制翻译系统中信号处理机制的研究

基于多核平台无关属性的程序并行度分析工具

MIMS： Towards a Message Interface Based Memory System

A High-Precision On-Chip Path Delay Measurement Architecture

系统虚拟化中指令去特权化的软硬件协同设计

一种递归定义的可扩展片上网络拓扑结构

众核结构上分块LU分解算法的研究

基于MIPS架构的异构内存虚拟化方法研究

GODSON-3: A SCALABLE MULTICORE RISC PROCESSOR WITH X86 EMULATION

A New Multiple-Round Dimension-Order Routing for Networks-on-Chip

Efficient and effective misaligned data access handling in a dynamic binary translation system

信息科学技术的长期发展趋势和我国的战略取向

21世纪上半叶信息科学技术展望

自私感知的数据驱动覆盖网络

Computing for the Masses

Green challenges to system software in data centers

New Methodologies for Parallel Architecture

基于SAT的快速电路时延计算

PartitionSim: A parallel simulator for many-cores

一种面向虚拟化云计算平台的内存优化技术

场景前颜色缓冲区压缩

高性能多媒体SoC分组访存调度算法

考虑工作负载影响的电路老化预测方法

全局图像特征分析与实时层次化消失点检测

采用旋转匹配的二进制局部描述子

基于独占式访存调度的片上系统电源门控方法

采用部分增强型扫描提高跳变时延故障覆盖率的触发器选择方法

基于二进制插桩的共享指令集异构多核处理器进程迁移方法

基于Cache锁和直接缓存访问的网络处理优化方法

面向并发性能下降的调度策略的综述

基于消息的内存系统关键技术研究

无锁同步的细粒度并行介度中心算法

PartitionSim:一个面向众核结构的并行模拟器

提高堆数据局部性的动态池分配技术

MALK:一种高效处理大规模键值的MapReduce框架

基于全局同步逻辑时间的访存依赖约减方法

针对组相联缓存的无效缓存路访问混合过滤机制研究

Dawning Nebulae: A PetaFLOPS Supercomputer with a Heterogeneous Structure

网络能耗系统模型及能效算法

片上实时功耗监控与估测的分析设计

GALS处理器的功耗有效性方法研究

任务并行编程模型研究与进展

Testable Path Selection and Grouping for Faster Than At-Speed Testing

Extendable Pattern-Oriented Optimization Directives

一种面向多核处理器的通用可调试性架构

基于MIPS架构的内存虚拟化研究

具有可变数据格式的透明度压缩

基于硬件辅助的用户态并行程序记录方法

基于二进制插桩的ASIP处理器指令集混合仿真方法

基于共享存储的高可伸缩嵌入式集群模型

一种带有无效缓存路访问过滤机制的低功耗高速缓存

一种针对片上众核结构共享末级缓存的改进的LFU替换算法

一种提高时序安全属性静态检测实用性的方法

一种场景敏感的高效错误检测方法

基于统计学习分析多核间性能干扰

多核结构片上网络性能-能耗分析及优化方法

基于传播引擎的指针引用错误检测

一种基于最小调试边界的断点自动生成技术

面向Internet数据中心的资源管理

IVF: Characterizing the vulnerability of microprocessor structures to intermittent faults

跨平台系统级虚拟机的访存优化

On-the-fly structure splitting for heap objects

GODSON-T: AN EFFICIENT MANY-CORE PROCESSOR EXPLORING THREAD-LEVEL PARALLELISM

一种基于RAM的降低异构多核切换开销的方法

龙芯3A多核处理器系统级性能优化与分析

基于硬件cache锁机制的Java虚拟机即时编译器优化

基于确定性的处理器硅后调试系统

众核处理器片上同步机制和评估方法研究

二进制翻译控制转移的软硬件协同设计

多微通道内存系统设计方法

用于多核同步优化的cache一致性协议设计

基于数据预取的多核处理器末级缓存优化方法

HEVC分像素插值与自适应环路滤波融合结构设计

浮点乘加部件的自动化形式验证

基于向量扩展多核处理器的矩阵乘法算法优化研究

H．264去块滤波算法在众核结构上的并行优化

龙芯处理器上的TLB性能优化技术

支持算法组件自动替换的编程范式及编译框架

高可扩展性的MHP分析算法

基于多核平台无关属性的程序并行度分析工具

别名集切片与并行化研究

面向无线传感器网络应用的自适应调试方法

基于包含的指针分析优化技术综述

面向最终用户的组合服务推荐

静态检测中断驱动程序的数据竞争

Xen虚拟化环境中镜像文件的访问直接映射研究

基于交互冲突的服务互操作匹配性检测

Single-particle 3D reconstruction on specialized stream architecture and comparison with GPGPUs

计算与通信相结合的体系结构

期刊信息

《高技术通讯》
北大核心期刊（2011版）

主管单位:中华人民共和国科学科技部
主办单位:中国科学技术信息研究所
主编：赵志耘
地址：北京市三里河路54号
邮编：100045
邮箱：hitech@istic.ac.cn
电话：010-68514060 68598272

国际标准刊号：ISSN：1002-0470
国内统一刊号：ISSN：11-2770/N
邮发代号:82-516

获奖情况:
《中国科学引文数据》刊源,《中国科技论文统计与分析》刊源

国内外数据库收录:
美国化学文摘（网络版）,荷兰文摘与引文数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,英国英国皇家化学学会文摘

被引量:12178