位置:成果数据库 > 期刊 > 期刊详情页
基于Lustre文件系统的MPI检查点系统实现技术与性能测试
  • ISSN号:1000-1239
  • 期刊名称:《计算机研究与发展》
  • 时间:0
  • 分类:TP316.4[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]国防科学技术大学计算机学院,长沙410073
  • 相关基金:国家自然科学基金项目(60621003,60573135);国家“八六三”高技术研究发展计划基金项目(2006AA01A106) 致谢 万国伟和刘勇鹏等人对系统的实现工作也做出了重要贡献,在此一并感谢!
中文摘要:

基于协同式检查点的回卷恢复是在大规模并行计算机系统中得到采用的一项重要容错技术,其性能开销主要为协同协议和检查点映像存储所决定.描述了一个在MPICH2中实现的应用透明的并行检查点系统,相比已有的技术,该系统有以下特点:1)协同协议操作利用了并行应用的近邻通信特性,通过虚连接方法减少协议的处理开销;2)采用Lustre文件系统简化检查点映像文件管理的复杂性;3)通过并行I/O操作提高性能,优化检查点映像的存储过程.实际应用的测试表明,该检查点系统具有较小的运行时间开销和良好的可扩展性.

英文摘要:

As one of the most important fault-tolerant techniques,coordinated checkpoint based rollback-recovery has been adopted in large scale parallel computer systems.Coordinating protocol and checkpoint image storage are two major factors that affect the overhead of parallel checkpointing systems.A novel application-transparent parallel checkpointing system implemented in MPICH2 is proposed.Compared with the existing techniques,the advantages of this system are summarized as follows:1) Utilize the feature of near-neighbor communication in applications and virtual connection method to reduce the number of internal messages exchanged in coordinating stage,and hence to reduce the latency of protocol processing;2) Store checkpoint images using Lustre file system to simplify the checkpoint files management;and 3) Implement parallel I/O in image storage stage to improve the system performance.Experiments suggest that the approach proposed results in low runtime overhead and enhances system scalability.

同期刊论文项目
期刊论文 41 会议论文 1
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349