位置:成果数据库 > 期刊 > 期刊详情页
面向龙芯3A体系结构的BLAS库优化
  • ISSN号:1000-1220
  • 期刊名称:小型微型计算机系统
  • 时间:0
  • 页码:571-575
  • 分类:TP301[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学技术大学计算机科学与技术学院,合肥230027, [2]安徽省计算与通讯软件重点实验室,合肥230027, [3]中国科学院计算技术研究所,北京100190, [4]安徽大学计算机科学与技术学院,合肥230039
  • 相关基金:国家"八六三"高技术研究发展计划项目(2008AA010902)资助; 国家自然科学基金项目(60833004)资助
  • 相关项目:支持高速缓存一致的片上网络关键技术研究
中文摘要:

双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多.

英文摘要:

General matrix multiplication of double precision(DGEMM) is one of the most important functions in BLAS library,which is called by many functions in the level-3 BLAS.The theoretical analyses help us find out the best way for loop unrolling contraposing 128-bit memory access instructions of Loongson-3A.By means of address interleaving,cache conflict misses are reduced according to the random cache replacement policy.Considering the limited memory bandwidth of Loongson-3A,task classification on the basis of data sharing is adopted to reduce the data access.The computation speed of the optimized DGEMM on single-core and multi-core is more than twice that of the open source BLAS library of highest performance.

同期刊论文项目
期刊论文 75 会议论文 63 专利 12
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212