网络上最重要最宝贵的资源是数据和信息,因此网络上承载的数据信息的安全性是网络容灾与网络可生存性的首要任务。特别是震惊世人的汶川大地震之后,数据容灾研究的紧迫性更加凸显。本课题将深入研究一种基于阵列码的大规模分布式数据灾难恢复的新技术体系,特别是其中的关键技术和原型系统研发,包括核心技术方法、技术体系、关键的软硬件原型系统、灾难恢复模拟试验、发明专利等关键点。课题拟解决的技术关键将是国际上挑战性的课题对于由N台数据服务器(包括备用服务器)组成的一个网络分布式容灾存储系统,当其中任意r台数据服务器的数据遭到损毁时,可以利用其余N-r台未受损的服务器数据立刻自动恢复这r台损毁服务器的全部数据信息,并且要求网络上每台服务器存储的数据信息冗余度均不超过2r/n 。
array code;GE code;plus-one code;Intelligent Information Locate;Transmission Optimization
阵列码是分布式容灾系统的关键技术,本项目创造性的提出了基于GE码的分布式容灾系统体系架构,作为一种纠错能力接近线性的,GE码有着几乎不受限制的扩展能力。以GE码为基础,并结合近两年存储系统的最新发展趋势——网盘,本项目团队实现了OverCloud分布式网盘存储系统。与传统的基于磁盘的分布式存储系统不同,OverCloud以网盘为基础存储介质,提供了多网盘的容灾存储功能,一方面针对网盘的特点,提供了安全性、可靠性、隐私性等设计,都具有独创性;另一方面,网盘的开放性也使得GE码的线性可扩展性得到了充分的发挥。 针对扇区的纠删码是阵列编码的最新研究方向。本项目所提出的plus-one code作为针对扇区的纠删码的最新研究成果,得到了广泛的关注。所谓针对扇区的纠删码,是james plank教授在2013年FAST大会上首次提出的,与传统纠删码仅仅纠正整个磁盘的删除错不同,针对扇区的纠删码还能够以更低的粒度提供针对扇区的纠删。Plus-one code以此为目标,抱着尽可能兼容现有纠删编码的目的,提出了一类广泛适用的1扇区纠删码。Plus-one code能够为现有多种纠删码增加一个(一片)扇区纠删能力,为扇区纠删码的应用提供了广泛的空间。 分布式存储系统是一个系统性问题,除了其中最核心的编码之外,还包含一系列问题,包括数据分发定位、数据压缩处理、数据传输优化等,都是分布式存储系统无法绕开的关键问题。本研究分别针对这些分布式存储系统中的关键问题进行了大量的研究,提出了语义感知的智能信息定位算法、使用范围更广的近似匹配数据压缩算法、针对大数据的传输优化算法等 技术的市场化探索是本项目的一个重要方面,在过去三年的时间里,我们与国内最大的存储企业华为(原华为·赛门铁克)建立起了深入的合作,共同开展了“基于广域网的存储系统优化研究”,设计并制作了广域网存储系统优化研究原型机。在最优情况下,该机比华为公司同期开发的对照原型机在性能上有超过10倍的提升。该技术已经应用于华为的OceanStor ReplicationDirector存储管理系统中,取得了一定的商业价值和经济效益。另一方面,我们也积极探索开源化的道路,团队所设计的OverCloud分布式网盘存储系统已发布于著名开源社区Github,获得了一致好评。