English

鼎甲智能归档平台InfoArchiver重磅发布分享实录

3月12日,Back You Up 鼎甲线上公开课准时开讲,产品总监汪潼重磅发布了最新版本的鼎甲智能归档平台InfoArchiver。它能将客户历史数据智能归档,超越一般归档产品的局限性,使系统能真正地伴随数据成长,满足客户不同阶段的、复杂的非结构化数据归档需求,让用户可在有限的存储空间内存放无限的数据。

此外,使用InfoArchiver,一方面能使本地昂贵的磁盘空间释放,提高空间利用率,降低存储开销。另一方面,它能将客户重要的数据,永久地保存起来,满足相关法规要求让有价值的数据得到保护和统一管理。

1








以下是汪潼分享的实录
鼎甲每年都会推出一些新的产品,去年除我们的旗舰产品DBackup外,我们还主推了云迁移还有应急接管这两个产品,并取得了不错的成绩。那么今年我们推出的一个重磅产品,就是鼎甲智能归档平台 InfoArchiver。

在坐各位应该对灾备比较了解,但对归档可能不是那么的清楚,后面我会详细解释一下归档是拿来做什么用的。我们可能理解的归档就是把我们的文件放到另外一个地方做长期的保留,这就是归档,但这只是说了一部分,没有说的很全面,在我讲之前,先给各位举一个比较浅显易懂的例子吧。


比如说,领导问IT管理员拿一份某一离职员工的邮件数据,领导需要管理员找出去年7月1号这个员工的邮件。我们都知道,企业的邮件都是有备份的,那我们就可以从备份机里面把它恢复出来,找到这封邮件是件十分容易的事。可是当另外一个需求出现时,这个领导需要IT管理员找出这个离职员工,从去年7月1号到今年7月1号的所有邮件,这个时候我们如果从备份系统里面去找,就非常非常的困难,需花费大量的时间。这个时候假如我们有归档系统,那么我们只要把这个时间段往里面一输,就可以把这个人一年的邮件,瞬间给他翻出来。
所以我们发现,备份的目的是为了做数据的恢复,归档的目的最终是为了做电子发现,就是做搜索和查询,所以它们对数据管理的层面,是两个不同的层面,也是两个不同的方向,我们说备份是要生成多个数据副本,也就是说我的数据要保留在不同的地点,不同的介质上,它才足够的安全。但是归档恰恰相反,归档是要减少你的数据副本,甚至于我要把你生产、存储上的数据搬移到另外一个地方去,它只有一个副本,所以我们经常会通过备份、归档这两类技术来共同管理我们的海量数据,接下来我们现在就正式开始今天的内容。
全球归档的市场空间是22亿美金,国外的产商占主导,国内的情况目前是鼎甲已经进来了,还有一些少数厂商他们也有在做归档,但是总体来说国内做归档的产商还是非常之少,可以说是凤毛菱角。
我们知道归档分两大类,一类是专门针对邮件系统的,主要目的是能迅速的找到客户所需的邮件,并且可做审计。也就是说我这个企业每一封进来和出去的邮件都可被我归档下来,将来用做法规遵从,或者对外的审计,起这么一个作用。那目前电子邮件是可作为电子证据存在的。还而另一大类主要就是针对文件系统这一块的。我们发现,但凡做存储或者数据相关的,他们都会有自己的归档系统。
随着公有云的发展,存储成本在降低,云上的数据归档显得没有以前那么刚性了,那现在的归档已经逐步的往云上走,成为一种归档服务,因为我们发现云存储作为归档介质是一个非常不错的选择,一它很便宜,二它不容易被篡改,比较的安全。
关于归档的需求,第一是存储的优化,我们发现大量不活跃的数据被存在昂贵的存储上,大量的重复文件也占用了较多的存储空间。此外,存储的性能也会随着数据量的激增而下降,需要减少存储的压力,这个压力是针对一个企业的IT管理员而言的。
在法律遵从上,《企业内部管理规范》明确规定了不同行业数据的保留时间,大部分为长期保留,要做长期保留的话,就要求存储成本足够的低廉,功耗足够的少,就会面临着我们要把数据存放到一些冷存储(磁带、蓝光等)上去。
最后一点就是法律诉讼。海量非结构化数据的查阅和搜索非常困难,当企业要去打官司的话,这种搜索成本非常之高,搜索成本是以时间来计费的,律师费用非常昂贵,对企业将会是巨大的支出。而归档系统能够很好的将数据进行长期保留并快速检索需要的数据,从海量文件中迅速找到所需的文件。这个就是三个大的需求领域对归档这套系统的刚性需求。
那么是什么催生了大量的非结构化数据的高速增长,以下就是数据高速增长的新型行业,是这些新型行业的飞速发展催生了我们更大量的海量数据的出现。

而数字化转型将生成数十亿的文件和数据,这也是迫切需要一个很好的归档平台的一种刚性需求。

接下来我们再看看非机构化数据的增长情况,据IDC预计,到2020年,数字宇宙将增长到 44ZB,约79%将是非结构化数据。

既然我们将会面临海量数据的爆发增长,那它对数据的现状及需求又是什么呢?这里可以从下图的这三个方面来说。

而鼎甲推出的InfoArchiver就可帮助用户解决上述三大方向上的问题。InfoArchiver可分为三大部分,一个部分是我们要影响的生产端,因为这个是数据的来源,也就是在我们的业务系统,我们业务系统所产生的数据会放到生产存储上去。首先第一个,它需要在我们的业务系统下面部署一个归档的代理,通过这个代理,我们来俘获所有生产数据的属性,就是它被访问的频率,被读写的次数,通过接口来获取到文件的最后访问时间,并以此为依据来设定归档策略
在我们的文件从生产存储把它归档走了后,我们会发现这个文件的实体已经不在我们的生产存储里了,但它会在原位置上,由一个存根或者是叫做一个唯一的标识,也可称之为一个链接。那么既然有这个链接在,实际上它对业务系统而言是透明的一个过程,业务系统会认为你的文件还在原始位置,但实际上它已经到了云端或者蓝光、磁带里面。那么用户访问的时候,他可以直接点击这个链接直接访问到历史文件,这个历史文件会从存储里以只读的方式打开。业务系统可以获取到这个唯一的标识直接跳转到“文档利用服务”来访问历史文件,假如业务系统如果停机,用户亦可通过“文档利用服务”直接访问历史文件。
在整体方案架构上,首先我们在自动归档服务器的部署上面支持集群的部署,也就是说当你的数据源特别庞大时,InfoArchiver可通过多节点的方式去同时并发归档文件数据,来解决归档的速度问题。在“文档利用服务”这块,InfoArchiver在Web界面里面实现类百度的检索,就相当于你在百度里面搜的东西一样,只不过搜索范围是在我整个企业的内部,并可实现多分辨率缩略图、动态水印、在线浏览,以及权限控制、安全审计

接下来就是自动归档和利用功能全景图,第一个就是归档策略的设定,支持多代理机部署,支持文件二进制归档校验,支持跨域、跨互联网部署,支持闪传、断点续传。闪传的意思就是说我可能有多个数据源要同时归档到一个归档服务器里去,但是这里面可能存在许多重复的文件,这些重复文件在我归档存储里面里它只会存一份,其他全部通过链接的方式来指向,这就是闪传。
存储这块我们支持任意的存储设备,在文档利用服务这块,提供历史归档文件直接访问平台,无需依赖原有业务系统,并提供严格的访问授权控制,支持客户AD域集成验证,手机、CA证书二次验证。基本上可以支持任意的业务系统,对应用来讲,你的数据不在本地了,对它来讲是透明的,它可以访问的到。此外,我们还提供了一些供用户自行选配的增值组件。

从物理部署架构来看,我们支持内部直连归档,亦可支持云归档、支持虚拟机部署和集群部署 。
InfoArchiver还通过三权分立,解决了权力过度集中问题。原来是单一的超级管理员,现在是三级管理员统一管理。

接下来就是InfoArchiver的一些功能演示。首先指定文件源归档远端服务,就是说我要归档哪些东西,就要把目录指定出来。要归档到哪里去,就要先定好这个目标。
归档后,我们可以利用文件存储和利用服务对归档后的文件进行文件的标签管理,做这些设置是为了让我们在搜索过程中减少我们的搜索范围,让我们能够更快速的找到所需的文件。

这是日志管理以及全操作的留痕,这里除了提交成熟API供业务系统快速集成外,我们还可提供详细的日志管理,小图是具体归档的过程。

全文检索则是一个类百度的搜索,在搜索过程中我们可按照更新的时间、文件格式和文件类别,把搜索范围尽可能的缩小,来提高搜索速度

文档访问权限体系则支持细颗粒度的权限设置,可满足企业具体业务需求、合规管理需求以及高效运作需求等。

在对版权问题上,InfoArchiver可打上安全水印,来区分这份文件或者图片的版权所有者的问题。预览或下载指定的文件时,可触发水印策略。嵌入的水印信息隐藏于宿主文件中,既保持原文件的可观性和完整性,又增加了文件使用的可追溯性

在日志管理,全操作留痕功能中,哪些用户对文件做了什么的操作,什么时间做的,操作的类型是什么,在一段时间内,我们可以全部导出到Excel当中,然后来进行合规审计。

此外,在增值属性里,可对归档后的图片文件进行缩略图的快速浏览,CAD、3D图纸的在线浏览,方便用户迅速找到所需图片。

最后就是InfoArchiver产品的技术参数。支持集群和分布式部署,千万级文件量搜索响应时间1~3秒,支持中文分词、多语种同义词检索、多维度组合筛选,提供细粒度授权机制,支持也业务系统授权同步,同时提供详细的文档访问和安全审计日志。
1







综上,我们可知通过InfoArchiver能较好地优化我们的备份恢复系统,无论数据是在云端还是蓝光,归档后的数据均可在本机生成存根,用户可直接访问。同时,它还具备强大的平台扩展能力和业务场景适应能力,如应用集成、应用快速构建、业务流程设计整合、智能化大数据管理等。
在演讲结束后的答疑环节,汪潼还耐心解答了参会伙伴关于InfoArchiver的相关问题,线上互动反响热烈,参会伙伴受益匪浅。

联系我们