English

重复数据删除技术

1.什么是重复数据删除技术?

首先,重复数据删除技术不同于普通的压缩技术。压缩是通过压缩算法消除文件内的冗余数据来缩减文件大小,而重复数据删除是通过算法消除分布在存储系统中的相同文件或者数据块。其次,重复数据删除也不同于普通的增量备份。增量备份的要旨是只备份新产生的数据,而重复数据删除技术的关键是只保留唯一的数据实例,所以重复数据删除技术在减少数据存储量方面更加有效。大部分厂商声称其重复数据删除产品能将数据缩减到正常容量的1/20。重复数据删除技术的基本原理是将数据分块筛选,找出相同的数据块并以指向唯一实例的指针取代。重复数据删除技术是一种数据缩减技术,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。高度冗余的数据集(例如备份数据)从数据重复删除技术的获益极大;用户可以实现10比1至50比1的缩减比。而且,重复数据删除技术可以允许用户的不同站点之间进行高效,经济的备份数据复制。

2.基于软件的重复数据删除和基于硬件的重复数据删除的优缺点

基于软件的重复数据删除旨在消除源的冗余,而基于硬件的重复数据删除强调存储系统本身的数据削减。虽然基于硬件的重复数据删除无法提供带宽补偿,而在源中进行重复数据删除中有可能获得带宽补偿,但是基于硬件的重复数据删除的压缩级别通常会更高,并且基于硬件的重复数据删除产品需要的维护更少。硬件重复数据删除设备以它们的高性能、可扩展性以及相对不间断的部署而备受关注。正常情况下,备份软件会将专用设备看作是一种一般的“磁盘系统”,并且完全不会发觉其内部正在进行的重复数据删除进程。小型企业或远程办公通常会避免使用设备,因为这些设备的费用要比用软件来实现重复数据删除的费用高,但是,它们确实是企业级部署的理想选择。基于硬件的重复数据删除也可能融合到其它存储(目标)平台上。例如,重复数据删除经常是VTL系统的一项功能之一。VTL系统通过使用磁盘而不是磁带进行存储,从而提高备份任务的速度,而且,添加重复数据删除使VTL磁盘使用率达到最大。在很多情况下,VTL重复数据删除是作为一种out-of-band进程来执行的。这是其一项优势,因为所有VTL的内容都可以通过重复数据删除技术以达到很好的压缩比率。不好之处在于重复数据删除不是实时的。然而,一些VTL系统在接收到备份服务器的数据之后,引入了in-band重复备份数据删除的处理能力。

3.硬件的重复数据删除产品中In-band和Out-of-band比较

基于硬件的重复数据删除产品的好处:基于硬件的重复数据删除产品能减轻与基于软件的重复数据删除产品相关的处理负担。重复数据删除功能还被融合到其它数据保护硬件中,如备份平台、虚拟磁带库(VTL)系统甚至通用存储系统像网络附加存储(NAS)等。通常这种方法并不旨在缩小备份窗口或恢复目标,但是一般而言,用户能借此达到最高的压缩级别,从而创造最大的可用存储空间。in-band重复数据删除在数据写入存储器时削减数据。尽管进程处理需要额外的处理能力从而可能扩大备份窗口的大小,但是in-band重复删除是有效率的,因为它只执行一次。out-of-band重复数据删除是在数据存储完之后执行。这种方法不会影响备份窗口的大小,并且能缓解对CPU进程处理的关注,从而避免在备份服务器和存储器之间产生瓶颈。然而,out-of-band重复数据删除在执行过程中使用稍微多一点的磁盘空间。还有,out-of-band重复数据删除需要花费的时间可能要比实际的备份窗口长。磁盘竞争是另一个问题,因为用户在重复数据删除过程期间尝试访问存储器,从而降低了磁盘性能。

4.两种主要的重复数据删除方法

目前有两种主要的重复数据删除方法:基于散列的方法和基于字节比较的方法。基于散列的方法利用一种算法对输入数据进行处理来创建很小的表达式和数据唯一的标识符(即所谓的散列值)。然后,将其与保存在查寻表中的散列值进行比较。但是,利用查寻表来确定重复的散列串会造成巨大的性能压力,并且可能需要几周时间才能取得最优的重复删除效率。效率更高的方法是在对象级上进行比较。例如,将Word文档与另一个Word文档进行比较,要么采用模式匹配算法;要么采用效率更高的智能分析技术。智能分析在更详细地比较两个文件之前会分析备份文件和参考数据集合来确定可能是冗余的文件。由于把处理重点放在可能的重复数据上,它可以更彻底地去除重复数据和避免不必要的处理新文件。一些技术在数据备份过程中进行重复数据删除。这种在线的重复数据删除会降低备份性能,增加备份的复杂性。另一些技术执行带外的重复数据删除,在执行时,它们首先备份数据,然后再执行重复数据删除。字节级重复数据删除可提供高达25:1数据压缩率。当与典型的VTL特性,即压缩技术配合使用时,企业无须增加存储容量就可在同样的空间中多保存50倍的数据。这种压缩技术不仅使用户可以在线保存更多的数据,并使数据保持更长的在线时间,还带来了将数据保存在硬盘上的优势。例如,把数据保存在硬盘上比保存在磁带上占用更少的物理空间,并大大减少电源、冷却、安全和其他运营与基础设施费用。重复数据删除技术通过使备份到VTL的费用大大低于纯基于硬盘的数据保护解决方案,改进了数据保护的经济性。同时,它也是数据中心应对急剧增加的能源、劳动力和空间费用,以及管理即将出现的电源和冷却容量短缺的重要的途径。

联系我们