东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

同时多线程处理器上的Cache性能分析与优化

ISSN号：1000-1220
期刊名称：《小型微型计算机系统》
时间：0
分类：TP303[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
作者机构：[1]中国科学技术大学计算机科学与技术系,安徽合肥230026, [2]中国科学技术大学苏州研究院,江苏苏州215123
相关基金：基金项目：国家自然科学基金重点项目“当代并行机的并行算法应用基础研究一（60533020）资助;国家.八六三”项目“红色神经元超高扩展高密度计算技术”（2005AA104031）资助.

关键词：同时多线程, 高速缓存, 仿真, simultaneous multithreading （SMT） , cache , simulation

中文摘要：

同时多线程（SMT）是一种延迟容忍的体系结构，它在每个周期内可以执行多个线程的多条指令．在SMT处理器上，对于片上共享存储这个复杂的结构资源，至今还没有很好的共享和冲突解决方案．本文着重研究了在多个并发执行的线程间划分共享Cache所存在的问题，指出基于LRU策略的传统Cache会根据需要隐式地划分共享Cache，这在某些情况下会导致全局性能的下降．针对这一问题并且考虑到SMT处理器上对Cache访问带宽的需求，本文提出采用一种多模块多体的Cache结构设计方案．并且在一个修改过的SMT模拟器上对该设计方案进行了性能评价．实验结果显示，相比于基于LRU策略的传统Cache，这一结构可以将一个4路SMT处理器的IPC提高9％．

英文摘要：

Simultaneous multithreading（SMT）is a latency-tolerant architecture that executes multiple instructions from multiple threads each cycle. In the SMT processor, for on-chip shared storage which is a complicated architecture resource,there aren＇t good solutions of share and conflict up to now. This paper investigates the problem of partitioning a shared cache between multiple concurrently executing threads, and shows that the commonly used LRU policy implicitly partitions a shared cache on a demand basis, and it will reduce the overall performance sometimes. According to the foregoing problem and taking into account the high-bandwidth Cache access in SMT processor, this paper puts forward adopting a multi-module and multi-banking Cache architecture. The design has been evaluated using a modified SMT simulator. The results show that this architecture improves IPC of a four-way SMT system by up to 9% over the traditional cache based on standard LRU replacement policy.

同期刊论文项目

当代并行机的并行算法应用基础研究

期刊论文 128 会议论文 7

同项目期刊论文

ELF:基于无用块消除和低重用块过滤的共享Cache管理策略

基于机群架构的并行数据库实现技术研究

有限元单元计算子程序的OpenMP并行化

HPMR:多核集群上的高性能计算支撑平台

ARP:同时多线程处理器中共享Cache自适应运行时划分机制

分层并行计算模型

全部到全部组播的核管理机制及其算法研究

On super connectivity of Cartesian product graphs

一种基于多核机群架构的混合索引结构

热传导方程基于界面修正的迭代并行计算方法

Acceleration Methods of Nonlinear Iteration for Nonlinear Parabolic Equations

有通信冲突的异构系统上的任务调度(英文)

最大节约原则下单体型推导问题的复杂性(英文)

基于网络编码的P2P内容分发性能分析

Towards Parallel Genetic Algorithms on PC Cluster

Estimate haplotype frequencies in pedigrees

Improved algorithm for finding next-to-shortest paths

MM5在深腾6800上的移植及其数值计算方法研究

基于新测序技术的比对与组装算法

A new approach for analyzing average time complexity of population-based evolutionary algorithms on

基于共享存储和Gzip的并行压缩算法研究

HPCC在IBM刀片机群上的诊断测试与结果分析

基于重叠分块的FM-index性能研究与分析

A parallel algorithm with interface prediction and correction for spherical geometric transport equa

未知网络中可分负载的分布式调度

并行计算的一体化研究现状与发展趋势

有向图并行计算中一种新的结点调度算法

药物设计构效关系研究的聚类—判别分析方法

拟线性抛物方程组具有界面外推的并行本性差分方法

Parallel adaptive solution for two dimensional 3-T energy equation on UG

基于均匀设计与Powell算法的全局最优化算法及并行实现

Models of parallel computation: A survey and classification

Gram-Schmidt算法及其并行实现

广义Hermitian特征问题标准化转换的有效并行块算法

SMP集群系统上矩阵特征问题并行求解器的有效算法

Relaxed RSO or CLJP coarsening strategy for parallel AMG

并行异构系统中的一种高效任务调度算法

CCSim:基于Pin的CMP Cache访问模拟器

The research progress of tiling array technology and applications

Study on parallel computing

一种改进的BMH模式匹配算法

若干并行计算模型上的N体问题求解算法

三元家庭基因数据的单体分型和单体型频率估计(英文)

一种基于“基因表达谱”的并行聚类算法

WRF数值气象预报模式系统在深腾6800上的移植与测试

机群系统中的高效全交换算法

路径洗牌算法：安全组播中一种高效的组密钥更新算法

A nine point scheme for the approximation of diffusion operators on distorted quadrilateral meshes

Analysis of accuracy of a finite volume scheme for diffusion equations on distorted meshes

Unconditional stability of parallel difference schemes with second order accuracy for parabolic equa

Parallel difference schemes with interface extrapolation terms for quasi-linear parabolic systems

二维多群辐射输运程序LARED—R-1的并行化

“基因电脑克隆”软件SiClone的并行优化研究与实现

TilingArray技术与应用研究进展

并行计算模型参数动态分析软件包设计

基于自索引的DBF压缩查询工具研究

一种新的MPI Allgather算法及其在万亿次机群系统上的实现与性能分析

RAM（h）模型下SpMV存储访问复杂度的分析

高速缓存优化的并行连接算法

适用于GRAPES数值天气预报软件的ILU预条件子

SpMV的自动性能优化实现技术及其应用研究

基于机群架构的并行数据库中间件系统改进研究

粒子输运离散纵标方程基于界面修正的并行计算方法

限制加性许瓦兹预条件的变形及其在二维三温能量方程中的应用

二维三温热传导方程求解中的非线性迭代初值选取

求解二维三温辐射扩散方程组的一种代数两层迭代方法

求解大规模矩阵特征问题的并行算法研究

HPMR在并行矩阵计算中的应用

CPU-GPU并行矩阵乘法的实现与性能分析

PHPC：一种普及型高性能计算机

基于龙芯2F体系结构的BLAS库优化

基于龙芯2F的国产万亿次高性能计算机KD-50-Ⅰ的研制

扩充OpenMP并行编程模型支持事务存储执行

推测执行技术在HPMR系统通信优化中的应用

HTCLOSE：快速挖掘微阵列数据集中的频繁闭合模式

一种基于Omega网的多播实现方案

国产万亿次高性能计算机KD-50-I的通信优化

基于用户兴趣的P2P资源搜索算法设计与分析

一种全面高效的HPCS监控体系

mRNA可变剪接问题的并行化研究

树结构在N体问题中的应用

无线自组网中多速率敏感单播路由

并行算法研究方法学

分块Gram-Schmidt正交化算法及其应用

基于MapReduce模型的并行科学计算

数值软件自适应性能优化搜索过程评价技术研究

一种改进的OpenMP指导调度策略研究

浅析高性能计算应用的需求与发展

PRAM和LARPBS模型上有向序列翻转距离并行算法

三元家庭基因数据的单体分型和单体型频率估计

CCSim：基于Pin的CMPCache访问模拟器

基于资源密度与节点管理的P2P随机搜索算法设计

MapReduce模型的调度及容错机制研究

基于后缀数组的分布式串匹配算法

不依赖于剪接位点信号的高精度转录组序列比对算法

基因表达数据的频繁闭合模式挖掘新算法

Integrated research of parallel computing： Status and future

抛物型方程的一种高精度区域分解有限差分算法

基于博弈论的网络安全量化评估算法

ACCELERATION METHODS OF NONLINEAR ITERATION FOR NONLINEAR PARABOLIC EQUATIONS

THE UNCONDITIONAL STABILITY OF PARALLEL DIFFERENCE SCHEMES WITH SECOND ORDER CONVERGENCE FOR NONLINEAR PARABOLIC SYSTEM

基于网格和最近邻居的聚类算法

无线自组网中最大化网络寿命的速率调整问题

组播中代价最小的核选择算法

使用特征点定位的纹理优化

期刊信息

《小型微型计算机系统》
中国科技核心期刊

主管单位:中国科学院
主办单位:中国科学院沈阳计算技术研究所
主编：林浒
地址：沈阳市浑南新区南屏东路16号
邮编：110168
邮箱：xwjxt@sict.ac.cn
电话：024-24696120 024-24696190-8870

国际标准刊号：ISSN：1000-1220
国内统一刊号：ISSN：21-1106/TP
邮发代号:8-108

获奖情况:
中国自然科学核心期刊,中国科学引文数据库来源期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:23212