随着数据的爆炸性增长和总拥有成本的不断上升,重复数据删除技术现已成为大规模存储系统中的重要组件。海量数据可靠性是数据组织管理和应用的基础。为了提高存储存储系统的利用率,目前普遍采用的带重复数据删除的存储系统中,其数据可靠性却大大降低了。本项目拟总结和分析当前主要的大规模存储数据高可靠性保证机制和算法,在此基础上,针对带重复数据删除的大规模存储系统的特殊特点,拟提出和设计一种适用和高效的数据高可靠性保证机制及算法-TH-ADMAD。TH-ADMAD综合应用纠错码ECC和分布式编码及恢复算法,在保证数据可靠性要求基础上,充分发挥存储效率。项目研究对于充分发挥海量数据存储组织效率,提高数据可靠性具有重要理论和实践意义。
Data de-duplication;Reliability;Large-scale Storage Systems;Cloud Storage;Error Correcting Code
随着数据的爆炸性增长和总拥有成本的不断上升,重复数据删除技术现已成为大规模存储系统中的通用组件。因为任何一个数据存储和管理系统的根本基础在于数据的可靠性,即被存储和管理的数据及信息是可用的和正确的,没有被删改的。但在带重复数据删除的存储系统中,其数据可靠性却大大降低了。 本项目在总结和分析当前主要的大规模存储数据高可靠性保证机制和算法基础上,针对带重复数据删除的大规模存储系统的特殊特点,提出和设计一种适用和高效的数据高可靠性保证机制。该机制综合应用纠错码ECC和分布式编码及恢复算法,在保证与现有最有的算法差不多可靠性的同时更好利用存储空间,提高恢复速度。本项目设计和实现了大规模存储存储可靠性评价模拟器,对本项目提出的机制与现有主要高可靠性保证机制进行定量测试、比较和评价。 近年来,随着云计算的广泛使用和深入,如何保证云存储数据可靠性是一个重要的问题。在本项目的重复数据删除的大规模存储系统的数据可靠性保证机制中,将每个ISN替换成一个云存储提供商,那么原来的算法和保证机制都可以运用到云计算中了。因此利用本项目前期研究成果,从成本的角度出发,将数据可靠性保障扩展到云计算环境下,提出了一种“富云”的数据容灾模型,即成本相关的云提供商高可靠性保证算法CAHRPA(Cost Aware High Reliability Provision Algorithm)。CAHRPA以恢复时间RTO和容灾成本作为优化目标,基于多目标离散化差分进化算法,实现了一种成本优化的高可靠性数据容灾方案。