位置:立项数据库 > 立项详情页
大规模网络存储系统的可靠性关键技术研究
  • 项目名称:大规模网络存储系统的可靠性关键技术研究
  • 项目类别:国家杰出青年科学基金
  • 批准号:60925006
  • 申请代码:F020403
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2013-12-31
  • 项目负责人:舒继武
  • 负责人职称:教授
  • 依托单位:清华大学
  • 批准年度:2009
中文摘要:

提出一种海量网络存储系统的体系结构和实现方法,论文发表于IEEE TOC。提出存储阵列结构下条带卷快速扩容方法,论文发表于ACM TOS。提出带外存储结构下条带卷扩展方法,论文发表于IEEE TOC。提出高容错高存储利用率编码方法,论文发表于ACM TOS。提出自适应Cache策略选择方法,论文被ACM TOS录用。提出基于IO节点驱动程序级远程镜像技术,论文发表于JCST。主持研制出国产存储网络系统TH-MSNS,近100套应用在公安、石油、教育等部门。提出电力系统暂态稳定计算中网络方程组并行算法,论文发表于IEEE TOPS,提出力矩阵并行算法和外推差分的美式期权计算方法,论文分别发表于CPC和IIE Trans.。以第一二作者近5年发表论文近100篇,SCI检索30篇,EI检索53篇,获发明专利17项。获国家级奖1项、部级奖2项、创新奖2项,获教育部新世纪优秀人才计划和中创软件人才奖

结论摘要:

磁盘作为存储数据重要载体,其可靠性严重影响着数据可靠性,另外随着文件系统、分布式存储系统日趋复杂,常出现大量的“海森”错误会导致系统崩溃、性能下降等,甚至会导致数据的丢失或损坏。为此,本项目对存储系统可靠性关键技术进行了深入研究,主要研究成果如下 1.在磁盘阵列可靠性方面进行了深入研究,在针对可检测磁盘故障纠删码的构造、容错能力与性能(编码、更新、解码)方面提出了一系列创新方法,包括可构造46以内任意偶数盘的最优效率RAID6的C码、最优更新效率RAID-6编码、改善纠删码盘阵小写性能方法、单磁盘错误的高效重构方法、数据排布方法,等等;在针对不可检测磁盘故障方面提出了检测和修复无记载数据损坏的创新方法。 2.在存储系统高可靠性方法方面,提出了针对系统错误的Byzantine优化协议;提出了保证分布式文件系统一致性的异步顺序更新技术;提出了提高固态存储集群可靠性的负载均衡方法;提出了减少写入放大而提高闪存可靠性的数据布局优化方法;提出了保证事务故障快速恢复的闪存设备事务性支持方法;提出了将纠错存储开销与纠错个数n的指数级关系(O(2n))降到平方级关系(O(n2) )的容Stuck-at-Fault错误的分组方法,等等一系列创新方法。 3.在高可靠存储系统构建方法与技术方面,设计了面向闪存可靠性的文件系统机制和文件系统存储管理方法,提出了基于固态存储阵列的并发失效恢复方法等一些创新方法,结合前述可靠性方法与技术,研制出了高可靠的网络存储原型系统。 本项目实施中,项目组在包括ACM/IEEE Trans.等国际期刊和会议(Micro、FAST等)上共发表(含录用)论文30篇,其中在国际顶级会议(CCF A类Micro、FAST)上发表论文3篇,在国际上著名和重要会议(IPDPS、DATE、ICCD、ICCP、IWQos、Cluster、ASP-DAC、ISIT)上发表(含录用)论文14篇,在国际期刊(如TOC、TOS)发表论文3篇,其中一篇获当期唯一一篇特色论文(Featured Article)。培养研究生6名(1人获校优秀博士论文一等奖),申请国家发明专利10项(已授权4项)。项目组积极参与国际会议、邀请国外专家访问,与国外同行进行了深入的学术交流与合作。本项目已高水平完成了预定任务,取得的成果已超过了预定的研究成果。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 11
  • 17
  • 0
  • 0
  • 0
舒继武的项目
期刊论文 20 会议论文 9