“去重+压缩”完美诠释“1+1=0”

企业动态
一谈到重复数据删除,很多人想到的就是虚拟带库;而一提到压缩,想到的就是文件和视频。在讨论重复数据删除和压缩怎么用之前,我们先来看一下什么是重复数据删除,什么是压缩。

 

 

“1+1”在什么情况下等于0?

在算错的情况下等于0!

Excuse me?

小编从不打诳语,

一脸认真地告诉说,

“数据压缩+重复数据删除”等于0

想知道为什么?

欲知详情,且看下文分解…

[[217814]]

 

一谈到重复数据删除,很多人想到的就是虚拟带库;而一提到压缩,想到的就是文件和视频。在讨论重复数据删除和压缩怎么用之前,我们先来看一下什么是重复数据删除,什么是压缩。

 

存储空间、预算 双双告急!

你考虑过这个办法吗?

 

重复数据删除,简单来说就是遇到重复数据时,不是保存重复数据的副本,取而代之的是增加一个指向***份(并且是唯一一份)数据的索引。从根本上讲,它能减少存储数据所占用的空间。这样做会带来诸多好处,如节约IT经费、无须为额外空间增加投资入;减少备份数据、数据快照等的大小;较少电源压力;节约网络带宽;节约时间。

 

数据压缩有各种各样的算法,但是究其本质,还是一种编码技术。假如,我们将这篇文章常用的字符串“重复数据压缩”六个字编码为“去重”,那么本文中的字数就会相应地减少,即便这样也还是有多份“去重”存在。

 

重复数据删除与数据压缩的主要区别在于:假如你有两份完全相同的数据(File or Block Level),数据压缩会对每份数据进行编码,进而用简单编码代替复杂编码。而重复数据删除则能辨别出这是两份相同的数据,从而只保存***个数据,并通过指针将第二份数据指向***份源数据。

 

所以我们看到,重复数据删除和压缩在本质上是不矛盾的,如果能在数据存储中既使用重复数据删除技术,又使用数据压缩技术,那一定是事半功倍的。

 

既然重复数据删除和压缩技术这么好,那么你有想过在生产存储上用去重和压缩吗?

 

其实很多IT经理都想在生产存储上用去重和压缩,但是却有很多的担心,可以说是一言难尽。让我们先来看一份调研数据:

“去重+压缩”***诠释“1+1=0”

 

如上图所示,2016年,ESG针对373位IT人员就“数据存储环境业务挑战”的调研显示,排名第二位的就是数据的快速增长。小编私下里也和多位资深的IT运维人员交流过他们的数据增长情况。

 

A君:“当初规划的时候,明明是考虑到了未来三年内的数据增长,结果刚用了一年空间就不够了。”

 

B君:“每年的IT预算都在降低,存储空间越来越紧张。”

 

小编:“你有考虑过用去重和压缩吗?”

 

“考虑过,一是不知道具体能省多少空间,但最主要还是担心对现有应用系统造成影响,比如对性能的影响、对可靠性的影响、对运维的影响等等。如果导致数据丢失,那就得不偿失了。”

 

那么今天,小编就带着大家来看看这个问题,戴尔的存储是如何解决这些问题的。

 

数据去重与数据压缩联动出击

数据去重比竟达50:1

 

我们还是先用数据说话,来看一份调研数据,同样是来自ESG的测试数据。

 

“去重+压缩”***诠释“1+1=0”

 

据图表数据显示,在不同应用环境下,经过数据压缩和重复数据删除之后,数据量都有大幅的缩减。而如果单使用压缩技术,数据的缩减量却并不是十分明显。这些主要是和应用的数据类型以及压缩算法有关,而大多数应用环境,在应用压缩和重复数据删除以后,数据的缩减量都非常的可观。从ESG基于实际应用环境的测试结果来看,实现了非常好的数据缩减。

 

“由于应用环境的不同以及特定数据的复杂类型,很难有一个特定的标准值来描述压缩和去重的效率。戴尔SC存储的目的是通过一个全面的方法提供***的用户价值(见上图)。戴尔SC系列存储通过分层架构(SSD以及HDD),精简克隆等技术实现了上述目标。同时,数据效率被大幅改善,经过ESG实验室基于实际应用数据的测试达到了66.75%。整个12TB的数据,实现了3:1的数据去除。相比之前ESG实验室的测试结果,包括在线压缩去重,戴尔SC系列存储都表现出了非常好的性能。”(编者译,源自ESG测试报告)。

 

具体压缩率数据请参照下表:

“去重+压缩”***诠释“1+1=0”

 

从这个数据表中,我们能更清楚的看到压缩和重复数据删除的效果。其中很多IT经理比较关注VMware环境,我们看到,在使用数据压缩后,能够实现2:1的压缩率,而将重复数据删除和数据压缩结合在一起来使用,数据变为了不到原来的30%。可以说这对使用VMware虚拟化环境的客户是一个非常好的消息。即便是在VDI环境,经过压缩和去重之后,也能实现2:1的去除率。在Hyper-V环境,更是达到了惊人的50:1的去除率。由此可见,在戴尔SC存储上使用重复数据删除和数据压缩,确实能有效的提高整个存储的利用率。

 

担心性能被拖垮?

SC系列告诉你,不存在!

 

那么,打开压缩和重复数据删除功能以后,对存储性能会有什么影响呢?最主要的得益于SC系列存储独特的体系结构设计,整个压缩和去重过程几乎对性能没有影响。下面,我们就来分析一下这个问题。

 

首先我们先来看一下SC系列存储的体系结构设计。我们说SC存储设计的核心是闪存,是新一代的体系结构,原因正是基于此。如下图所示,在SC存储内部,最多可将存储分为三个层次,分别是T1、T2、T3。这个分层过程是系统自动的,比如,如果添加7.2K的NL SAS,那么系统会默认的把它分到T3,如果添加WI SSD,那么系统就会把它默认分到T1。由于RAID10和RAID5在读写性能上的差异,我们知道同种类型的磁盘组RAID10写性能要优于RAID5而读性能基本相当,所以SC存储在每一层里面又会分为RAID10和RAID5两种条带类型。

 

“去重+压缩”***诠释“1+1=0”

 

其次最关键的一点,所有系统新写入的数据都放在T1的RAID10里面,而每过一段时间,系统就会做一个Data Progression,保存数据bitmap之后将数据块属性变为只读。之后,将不活跃的数据逐渐迁移到下一层,比如T1 RAID10到T1 RAID 5或者T1 RAID5到T2 RAID10。通过这种方式,整个存储的性能永远是T1的性能,而无需进行调优。如果使用中,觉得性能不够,就需要相应的添加T1的磁盘,如果觉得容量不够,就可以添加性价比***的T3磁盘。SC存储正是通过这种方式,实现了***的性价比!

 

而重复数据删除和数据压缩的过程就发生在Data Progression的过程中。在去重过程中,Page被移动到专用的存储空间。重复数据删除的页面为4 KB大小的切片,并基于切片制作Hash指纹。用Hash指纹对比重复数据删除的字典进行查询,以查看切片是否已被保存在字典中。如果已经保存,则读取两者的源数据进行比较,以确保数据一致,如果一致之后会将切片删除。如果不一致,则分别保存切片数据以及Hash指纹,并做相应的更新。压缩过程与去重过程近似。

 

“去重+压缩”***诠释“1+1=0”

 

由以上SC存储的架构和去重压缩过程可见,SC的去重压缩过程其实是后去重压缩过程,得益于SC的分层流动存储架构,整个去重过程不会影响生产数据的性能。因为生产数据的“写”性能全部发生在T1的RAID10组里面, “读”也绝大部分发生在T1的SSD里面,故可以达到理想的数据去重效率,即平均数据去除率66%。所以,即便是在生产存储中使用也无需担忧。需要说明的是,客户也无需为去重和压缩花费额外的费用,只要客户的存储环境中有一定数量的SSD磁盘,就可以使用戴尔SC存储的去重和压缩功能啦!

 

说到这里,其实戴尔SC存储还有两个包含在基础软件包里的功能,可以让客户在VMware虚拟机环境使用压缩和重复数据删除的时候如虎添翼。一个是VVols,另一个是QoS。

 

VVols,可以让存储直接映射虚拟卷给VM虚拟机,而无需将整个卷硬设备host主机。有了VVols,虚拟机管理员使用熟悉的VSphere工具为每台虚拟机选择SC系列策略,存储管理员只需定义可供虚拟机管理员使用的策略的菜单。另一项功能就是QoS,说起来更厉害了,有了QoS,存储管理员可以给每个卷设置属性文件profile,可以限制这个卷的IOPS以及MB/s。同时也可以给一组卷设置整个Group的IOPS以及MB/s。

 

“去重+压缩”***诠释“1+1=0”

 

看到这儿,相信你已经揭开1+1等于0的谜底了。单来说,戴尔SC存储利用先进的分层流动存储架构在进行数据压缩和重复数据删除的同时,对生产数据的性能影响为“零”。另外,借助VVols、QoS以及压缩和重复数据删除功能一起在生产环境中使用,真的可以灵活、高效的进行管理,实现事半功倍,按需分配。


 

 

 

 

责任编辑:张燕妮 来源: 戴尔企业级解决方案
相关推荐

2013-05-16 10:07:42

固态硬盘RAID 0三星840 Pro

2018-02-01 21:18:40

戴尔

2010-09-07 17:02:39

家庭布线

2012-09-24 09:35:31

APUCPUGPU

2015-07-21 14:07:51

微软云计算Office 365

2016-01-27 09:48:44

无线覆盖无线路由器

2011-03-17 13:33:35

虚拟化网络交换机H3C

2014-05-16 14:14:47

1+1电视互联网同洲

2020-06-08 15:41:00

边缘计算数据中心5G

2015-03-30 08:56:18

Docker高效开发环境虚拟化

2014-12-15 10:19:17

2024-03-11 16:01:29

BitMap数据去重开发

2021-02-02 09:50:51

紫光云

2010-05-12 16:39:05

富士康员工

2009-12-15 14:36:24

2020-10-21 17:27:44

IT技术远程工作

2020-06-22 10:21:44

物联网蓝牙技术

2019-12-23 14:14:47

5GAI人工智能

2022-01-19 15:16:33

区块链加密货币代币

2009-10-09 14:11:00

中小企业信息安全瑞星
点赞
收藏

51CTO技术栈公众号