English

Back You Up 公开课12期 | CDM的想象与真实 分享实录

7月3日,Back You Up 鼎甲线上公开课第12期开讲,鼎甲华东区技术支持工程师张年年介绍了CDM的设计场景与真实使用场景,并对CDM未来发展趋势进行了分析。

大家好,欢迎大家来参加今天的鼎甲公开课,我们今天的主题是CDM的想象与真实。我大致会把这个课程分成五个部分。

第一部分,你从哪里来,我的CDM。我们讲CDM从哪里来主要要回到我们整个灾备行业的两大基本需求,灾备行业最重要的两个需求,它都是来自于一些灾难性的场景,那么我们看一下到底有一些什么场景。比如说误操作、中病毒,又比如恶意删除、删库跑路这种。当发生这些,我们叫数据上的逻辑错误的时候,我们需要把这个数据状态调回到没有发生这些错误之前。
那么另外一些场景,比如说节点宕机了、断网了、发生灾难了,就是整个服务器啊,整个机柜,甚至于整个机房都遭受了一些数据灾难,我们怎样才能保证这个业务能够持续的运行?
这是灾备行业的第二个问题,那么这两个问题其实是两个需求的核心,一个是数据可恢复性,一个就是业务的连续性的保障。面对这两个核心的需求,我们灾备行业的厂商是做了很多工作,主要的内容就是备份和容灾。也就是说,备份和容灾其实是两件不同的事情。
备份做了一些什么事呢?我们看一下备份的特点。备份主要是建立一个数据的时间冗余,它的数据恢复都会有数据的传输过程,而且这个数据的存放一定是脱离生产环境的,它是不能放在生产环境内部的。
那么什么是容灾呢?我们顾名思义它是灾难的冗余嘛,在灾难来临的时候,我们不至于说整个业务没有办法进行了。容灾这件事情它有三个非常突出的特点,第一个容灾的数据它是同步更新的,一旦你在一个节点上删除了一个数据,那么其他节点相应的数据也就跟着删除了。
容灾第二个特点就是可切换,它可以在节点之间去切换它的业务负载,第三个特点就是不能回到过去。
那么在灾备工作上还有两个非常重要的指标,就是RTO和RPO。RTO是业务恢复时间,RPO是恢复时间点。
在这些概念的基础上,CDM是如何来的呢?CDM一共有三个非常核心的技术。第一个是连续日志保护,通过一个定时的数据备份,再加上我们实时的连续日志保护,可以将数据库的数据非常完整的去保存。它和CDP有一个本质的区别,就是我们备下来的每一个日志都是能保证它是可恢复的。
第二个核心技术点就是合成备份,合成备份最重要的一个优点就是它是一个永久的增量备份。我们可以看下面这个图,每一块红色的都是指那个初始的全量备份,每个初始的全量备份加上当前的这个绿颜色的增量数据之后,可以组合成为一个新的全量数据,就是后面的蓝色这个方框。每一个蓝色方块都成为一个块状的形态,存在我们的CDM服务器里面。那么这些蓝色的方块儿可以去干什么?可以去做一个挂载恢复,那么就引入了我们第三个核心的技术叫做即时挂载恢复。
即时挂载恢复它的概念是根据数据形态不同,通过iscsi、FC、NFS等协议,将备份集通过直接挂载到客户端的形式进行交付。主要特点是无数据传输、挂载内容可写及多副本挂载。
刚刚我讲了三大核心的CDM技术,我们可以看到,实际上这个CDM就是脱胎于备份且不止于备份。
那么根据这个CDM的情况呢,我们设计了一些方案场景,就是我们在想像中的场景,我们今天的主题叫想象与真实嘛,那我们想象中的场景是怎么样的?是我们获得黄金副本之后进行若干个快照的挂载,去支持这些应急、开发、测试分析等等一些其他的业务。
我们想象中首先CDM是一个备份恢复的东西,然后它是可以去做一个应急接管级副本提供。
那么我们在现实中,比如说鼎甲在这几年也实施了很多个CDM的项目,在项目实施和后期维护的过程中呢,也发现了很多用户实际上对你这个CDM平台,它的用法和它的一个使用的需求。比如说在电信号码百事通,他们有一些这样的用法。
我们还有一个客户,是一个码头客户,他的这个码头的应用首先是不能停的。他的数据备份呢,也是不能丢数据的,他的RPO要求是分钟级别。
快递公司它们数据库的体量是非常庞大的,它主要是要做合成备份,做合成备份的目的是它没有办法周期性的做全量备份。因为它一旦做全量备份相当于他这个数据库的使用几乎要停止,所以一定要做永久的增量备份。此外,它还有一个25T的数据库,当它要去生成一个测试库的时候,它需要CDM去做挂载恢复。
因为CDM是脱胎于备份,CDM的厂商也主要是以备份厂商为主,那我们在做我们产品的时候,在我们的想象中,我们的产品在被用户使用的频率一般是不会很高的,因为用户发生灾难的频率不会很高。但是CDM这个东西是不一样的,它的频率会变得非常高。然后呢,秒级恢复到小时级恢复,这里面就讲到我刚才说到的一个日志回滚的时间。第三个硬件,我们CDM的这个设备,它所使用的硬件是不是一个普通的备份一体机能够搞定,这也是一个非常重要的问题。
我们来看一下这个使用频率啊,比如说号百的场景,他这个场景都不是一些发生灾难的时候才会有的场景,而是日常工作中就会产生的场景,所以他每天的工作中都会发生这种需要副本挂载的事情。然后在如此高频率的使用情况下,他遇到的问题一定会更多。操作后,他的这个挂载在操作以后就会很快的去解除掉啊,很少会有这种长时间要挂一两个月的这种场景出现。
第二种这个想象与现实的差距就是你的售前介绍的时候秒级恢复,实际上秒级恢复是很难去做到,因为它有一个日志回滚的时间,就说我们在售前介绍时经常会去忽略掉这个日志回滚的时间。大型库的备份时间较长,备份过程中的产生的日志需要回滚,以满足精确的时间点、SCN恢复。
在硬件配置层的想象与现实,基本上有三大块:修改恢复目标库的配置如AIO及文件系统调优;引入SSD闪存盘,提高磁盘I/O性能;增加备份服务器的内存、CPU配置。
最后我讲一下当我们遇到了这些想象和现实的差距之后,鼎甲对我们CDM的产品在未来做了一些什么样的展望?下面这是一个方案,我们把CDM和脱敏去整合到一起。整合到一起之后呢,也就是说将脱敏这件事情,也是离开了生产库。在做脱敏抽取数据和运算的这个过程,是不需要生产库的参与。所以就把脱敏这件事情离你生产更远,对你生产就没有任何的影响,通过CDM和挂载数据库来实现这么一个脱敏的工作。最终用户是通过查询客户端直接去查询这个脱敏的数据库就可以了。
第二种方案呢,我们CDM在整个的基础架构中扮演的角色,我们去挖掘一下第二存储的一个重要角色。那么在这个过程中,其实CDM这个系统和生产测试用的存储是在同一个层面的。从生产数据到测试数据,这么一个转换过程是通过CDM可以去做一个数据的承上启下,通过CDM可以去做一个生产数据的副本,快速为测试数据提供副本。
然后我们在鼎甲的这个CDM的一体机,硬件上也做了一些优化,比如说我们推出了DK8000系列的全闪存的一体机。包括了是全闪的系统盘啊,全闪的数据盘,大大的提高了我们磁盘的IO,还有就是针对一些大容量的大数据量的这个用户的情况,我们的CDM也提供了4U的这种DK7000系列,我们叫它半闪存盘。其实根本目的也是用来提高我们的磁盘的IO,提高磁盘IO以后就可以提高整个挂载恢复回滚日志的速率。
今天的分享就到这里结束了,谢谢大家。

联系我们