调试消息传递程序(MPI)是并行计算的重大挑战,确定性重播是辅助调试的重要技术。目前的确定性重播技术在日志的记录和管理中存在以下不足每个进程产生独立的日志文件,导致日志文件数量多,管理复杂;直接将日志写入磁盘或者通过网络文件系统写入服务器磁盘性能不理想;MPI程序中存在内容相同的消息,现有方法会重复记录这些消息,浪费日志空间。这些不足限制了重播方法的实际应用。本项目提出基于分布式键值对网络存储的确定性重播技术,深入挖掘分布式键值对网络存储与确定性重播技术的结合点,主要研究面向MPI程序重播的定制的分布式键值对网络存储系统,消除程序员管理日志的负担,保证日志存取速度;独立于MPI运行库,重播引擎和键值对网络存储的数据服务中间件,保证程序移植性;重复消息在线全局删冗技术,进一步减小日志规模。最终的目标是提供透明的低开销的基于分布式键值对网络存储的MPI重播方案。