OceanStor 9000大数据存储系统技术白皮书 4 软件特性
4.1.4 客户价值
典型应用场景
用户按照初始需求进行设备部署,可以将不同的节点混合部署。所有应用统一通过NFS或CIFS协议进行访问。 图4-4 典型应用示意图
客户价值
OceanStor DFS是一个弹性、易于扩展的存储系统,可以随着用户的需求的改变而改变,在提供了高可靠性、高性能系统同时降低了系统拥有成本。
4.2 分布式数据可靠技术
4.2.1 技术背景
现代的存储系统,都是由多块硬盘组成的。在单个存储系统中,硬盘的数量越多,系统的故障率就越高。数据保护技术就是为了防止因部分硬盘故障导致丢失数据而产生的,它是大规模的存储系统中最重要的技术之一。
传统的数据保护技术是使用RAID方式,把数据存放在一个RAID组内的不同硬盘上,当其中有硬盘损坏时,通过RAID重构,恢复坏盘上的数据。
文档版本 01 (2015-06-27)
华为专有和保密信息 版权所有 ?
华为技术有限公司
12
OceanStor 9000大数据存储系统技术白皮书 4 软件特性
图4-5 传统RAID数据保护技术
这类存储系统常用的RAID方式有RAID-0\\1\\5\\6等,其中可靠性最高的RAID-6最多只能支持2块硬盘同时发生故障。另外一方面,这类存储系统使用控制器执行RAID
数据存储,为了预防控制器故障,它们通常使用双控制器的方式来保证服务的可用性,但当2个控制器同时发生故障时,还是会导致服务中断。虽然这类系统还可以通过在多个节点间进行同步/异步的数据复制,进一步提高系统可靠性,但这会导致硬盘利用率很低,让用户承担较高的TCO(总体拥有成本)。 OceanStor 9000的数据保护技术,是建立在分布式、节点间冗余的基础上的。数据进入系统之后,首先被切分为N个数据条带,然后计算出M个冗余条带,并最终保存在N+M个不同的节点中。
图4-6 OceanStor 9000 N+M数据保护技术
由于同一条带的数据保存在不同节点中,所以OceanStor 9000存储系统中的数据不仅能支持硬盘级的故障,而且能够支持节点级的故障,保证数据不丢失。只要系统中同时故障的节点数不超过M,系统就可以持续提供服务。通过数据重构过程,系统可以恢复出损坏的数据,恢复整系统的数据可靠性。
文档版本 01 (2015-06-27)
华为专有和保密信息 版权所有 ?
华为技术有限公司
13
OceanStor 9000大数据存储系统技术白皮书 4 软件特性
另外OceanStor 9000系统还提供一种N+M:B的保护方式,可以支持M个硬盘故障或者B个节点故障。这种保护方式在节点数量少于N+M的小容量系统中非常有效。 图4-7 OceanStor 9000 N+M:B数据保护技术
OceanStor 9000的数据保护方式与传统RAID相比,能达到类似于传统RAID在多节点数据复制的高可靠性,同时仍可保持N/(N+M)的高硬盘利用率。另外,在OceanStor 9000系统中,任意可用空间都可以作为“热备”空间使用,不需要像传统RAID那样预先划分独立的热备盘,因此可进一步提高存储利用率。
N+M详解
OceanStor 9000存储系统提供多种N+M(或者N+M:B)的冗余比配置,用户可根据业务需求在管理界面上进行配置。配置的范围可以是任意目录,对目录配置冗余后,目录下的文件都采用该冗余配比保存;用户甚至可以对目录与此目录下的子目录配置不同的冗余比。这意味着用户可以灵活多变地根据自己的实际需求来指定数据冗余,从而设置最适合的可靠性。
OceanStor 9000系统内的节点可划分为多个Node Pool(节点池),每个节点池的节点最少为3个,最多为20个,在部署和扩容时可根据需要来划分节点池。
在实际配置中,OceanStor 9000提供智能配置,用户只需要指定其数据的可靠性(支持几个节点同时故障,或者支持几块硬盘同时故障),即只需对目录/文件设置相应的+M(或者+M:B)即可。OceanStor 9000系统会根据系统当前Node Pool(节点池)的节点数量,自动选取最合适的冗余比。目前OceanStor 9000系统支持的M为1到4(当配置为+M:B时,B可选为1)。在不同的节点数目下,不同的配置对应的实际N+M(或N+M:B)如下表所示,其中括号内为存储利用率: 图4-8 OceanStor 9000 冗余配比对照表
配置 节点数 3 4 +1 +2 +3 +4 +2:1 +3:1 2+1(66%)3+1(75%)4+2:1(66%) 4+3:1(57%) 6+4:1(60%)4+2:1(66%)4+3:1(57%)4+2:1(66%) 4+3:1(57%) 6+4:1(60%)6+2:1(75%)8+3:1(72%)文档版本 01 (2015-06-27)
华为专有和保密信息 版权所有 ?
华为技术有限公司
14
OceanStor 9000大数据存储系统技术白皮书 4 软件特性
567891011121314151617181920
4+1(80%)4+1(80%)6+1(85%)6+1(85%)8+1(88%)8+1(88%)8+1(88%)8+1(88%)12+1(92%)12+1(92%)12+1(92%)12+1(92%)16+1(94%)16+1(94%)16+1(94%)16+1(94%) 4+2:1(66%) 4+3:1(57%) 6+4:1(60%)8+2:1(80%)4+2(66%)4+3:1(57%)6+4:1(60%)8+2:1(80%)4+2(66%)4+3(57%)6+4:1(60%)12+2:1(85%)6+2(75%)4+3(57%)6+4:1(60%)12+2:1(85%)6+2(75%)6+3(66%)6+4:1(60%)16+2:1(88%)8+2(80%)6+3(66%)6+4(60%)16+2:1(88%)8+2(80%)8+3(72%)6+4(60%)16+2:1(88%)8+2(80%)8+3(72%)8+4(66%)16+2:1(88%)8+2(80%)8+3(72%)8+4(66%)16+2:1(88%)12+2(85%)8+3(72%)8+4(66%)16+2:1(88%)12+2(85%)12+3(80%)8+4(66%)16+2:1(88%)12+2(85%)12+3(80%)12+4(75%)16+2:1(88%)12+2(85%)12+3(80%)12+4(75%)16+2:1(88%)16+2(88%)12+3(80%)12+4(75%)16+2:1(88%)16+2(88%)16+3(80%)12+4(75%)16+2:1(88%)16+2(88%)16+3(84%)16+4(80%)16+2:1(88%) 12+3:1(80%) 12+3:1(80%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 4.2.2 技术原理
OceanStor 9000的分布式数据保护技术,是通过数据条带化和集群对象存储两项技术来实现的。
数据条带化
OceanStor 9000系统可以针对目录/文件配置不同的数据保护方式。不同的数据保护方式,是通过不同的数据条带化方式实现的。
使用Erasure Code(纠删码)方式时,写入OceanStor 9000系统的数据,会按照128KB或者16KB为一个条带,可以按照目录配置为128KB或者16KB,切分为多个原数据条带,然后对每N个原数据条带,计算得到M个冗余数据条带,最终这N+M个条带组成一个分条,写入到系统中。当系统出现故障,丢失了其中的某些条带时,只要一个分条中丢失的条带数目不超过M,就可进行正常的数据读写。通过数据恢复算法,丢失的条带可从剩余条带中计算得到。在这种方式下,空间的利用率约为 N/(N+M),数据的可靠性由M值的大小决定,M越大可靠性越高。
使用镜像方式时,写入OceanStor 9000的数据也会按照128KB进行切片,不同的是,系统对每个原始数据条带,都按照复制的方式存储为多份,只要其中任意一份不损坏,就可进行正常地读写。执行数据恢复时,丢失的镜像数据直接从完好的数据中复制即可。同样,系统可以配置不同的镜像数目,以得到不同的空间利用率和数据可靠性。
集群对象存储系统
OceanStor 9000的分布式文件系统,是以底层的集群对象存储系统为基础的,文件系统的数据和元数据经过数据条带化后生成条带和分条,最终以对象的形式存储到硬盘中。以一个3+1方式保护的文件数据举例,如图4-9所示。
文档版本 01 (2015-06-27)
华为专有和保密信息 版权所有 ?
华为技术有限公司
15
OceanStor 9000大数据存储系统技术白皮书 4 软件特性
其中纵向的虚线框代表不同硬盘,横向虚线框代表一个数据分条(Stripe),每个分条落在单个硬盘上的部分我们称之为对象或者条带(Strip)。 图4-9 条带与对象
OceanStor 9000内部实现为一种基于对象的分布式存储系统。基于对象的存储是一种区别于传统的基于块的存储的新型存储,它具有高并发、高吞吐量等优点。OceanStor 9000的对象存储系统,是将系统中所有的设备格式化成对象存储设备后,通过网络连接组成的一个集群系统。
OceanStor 9000大数据存储系统,是保证系统中数据持久可靠的关键。它不间断的监视着系统内的节点、硬盘的状况。当有硬盘或者节点损坏时,集群对象存储系统会自动发现故障,并自动发起对象级别的数据恢复。这种对象级恢复只恢复真正的数据,不会像传统RAID那样进行全盘重构,因此具有更高的恢复效率。另外,在恢复过程中,受损的对象会选择不同的节点和硬盘作为恢复目标,并发地执行恢复过程,相对于传
统RAID只能恢复到一块热备盘上的方式,对象级的恢复可以达到非常高的恢复速度。 OceanStor 9000大数据存储系统,还具有动态负载平衡的功能。当它检测到有负载不均衡发生时,它会自动发起对象迁移,使系统重新达到负载均衡。在数据恢复过程中,它也会调整各节点的负载情况,为对象恢复选择合适的目标,防止出现IO瓶颈,保证数据恢复的速度。
4.2.3 技术特点
高效的数据保护技术
OceanStor 9000大数据存储系统采用的N+M数据保护技术 – InfoProtector,是华为公司的专利技术,此技术基于可靠的数学构造,并利用 Reed-Solomon 编码来提供冗余和可用性。它可以提供针对最多同时故障4个全节点的数据保护。并且硬盘故障时,InfoProtector确保将单个故障盘的重新构建时间缩至最短,在典型场景的6节点4+2冗余下恢复大文件时达到1TB数据只需要1小时恢复时间。
文档版本 01 (2015-06-27)
华为专有和保密信息 版权所有 ?
华为技术有限公司
16