针对制造业海量NAS数据的保护及归档

在一些研发、设计,图片处理等场景,为了便于共享存取使用,很多文件会通过NFS/CIFS协议存放于集中的NAS设备上,这些数据常常是企业内部非常核心的智力资产,需要有良好的保护手段。但一直以来,这种非结构化数据的海量、庞杂的特点,导致保护其数据的难度较大。本文就如何针对这种数据进行保护,及离线管理,做简单讨论。

一、需求

这种海量非结构化数据,从业务本身来看,主要有如下相关的业务特点:

1. 数据会被很多人访问

2. 尽可能的快速访问

3. 访问者要分权限

4. 相对而言,新增,查询操作会多一点;删除,更新操作会偏少

5. 数据使用生命周期,随业务特性决定。很多业务在一定周期内(例如1-6月)会频繁生产、访问,但该周期后,访问频率会大幅降低,同时又要求该周期后的数据要能够按照业务要求及第三方合规要求,存放规定的时间。

6. 数据如不可访问,会导致研发及相关业务停顿。

7. 数据如丢失,不可找回,会直接导致业务相关的经济损失,甚至整个相关业务的失败。如有上下游合规要求的违背,可能会带来经济损失,商业罚款,以及企业商誉风险等。

8. 针对芯片行业,其业务流程分为,IC设计;芯片制造;芯片封装;成品测试

    a. IC设计,该领域主要为研发环节,其数据产生重点都是海量小文件。业务特性按照NAS厂家常见规划方式,其主存是一台相对高端NAS,后端放一些较为低端便宜的NAS,如NetApp的2750等系列。其中业务访问数据由类似NetApp的ontape的管理软件,实现数据的冷热分级。

         i. 其数据保存周期的特征,一般是高端NAS中的数据都会是128k等类的很小的小文件,每个研发人员去修改,在项目没有交付前,数据必须保障高效可用。

         ii. 当此类小文件,在设计成型后,需要合成一个非常大的文件,作为制造和封装的初始文件,这时候这个大文件,会变的非常重要。 而之前的小文件,会变的没那么重要。

    b. 芯片制造;类传统制造业

    c. 芯片封装;类传统制造业

    d. 成品测试;类传统制造业

这些需求很多是偏业务服务层面的,但其中涉及到安全类的需求,需要通过基础备份理论,辅以备份领域的技术方案配合,形成整体的解决方案。

二、对以上NAS类产品的保护考虑

1. 数据备份保护的特殊要求

从前文所述的业务需求来看,很多管理业务的同仁,或者管理存储同仁都期望能够对相关数据做到稳妥的保护和合理安全的使用,他们经常采用的方法是在存储侧打快照,用以避免当盘阵中的数据出现逻辑错误的时候,无法应对数据恢复要求。或者用类似存储Vault的能力,将一些“冷”数据从昂贵的主存储移动到相对低廉的二级存储上来。这个技术在前文需求环节有介绍,IC设计阶段会通过中低端存储的配合,实现数据的冷热分级。

这些方法,可以在数据基本管理层面上,为业务数据能够提供一定程度的数据保护能力,但无法应对现有复杂的内外部业务损失风险,以及业务对数据保护更细腻,更高效的要求。

例如,我们确实可以通过存储快照snapshot的方法,在需要数据恢复的时候,提供快照回滚,来达到部分的数据恢复。但在很多场景下,这种恢复是低效且无法满足需求的,例如在一整个卷中,仅仅只需要恢复一两个文件的场景下,存储快照就很难做到仅恢复一两个文件,而不影响其他内容。同时,从数据绝对安全的角度上讲,一个完整可靠的备份,是需要从在线系统离线,否则当在线系统的硬件出现全面故障,其备份数据也会同时损失,而失去了备份的意义。更遑论,在面临更对内外安全风险时,快照方式,更是无法应对这些病毒或者黑客的恶意入侵风险。

在冷热分级的环境里,为确保主存保持最佳性能,我们确实提供低廉二级存储来存放冷数据,但随着冷数据量变大,依然会消耗大量的二级存储。且二级存储本身,也依然是面临安全问题,对其上数据做完整的,且更为价格低廉的保护,是有必要的。

2. 保护分级

数据保护的管理难度,是与所需要保护数据的量以及特性有关的。一般而言,面对大数据量,技术管理难度会复杂些,这个"大“的定义,有两个角度,一个是数据容量本身的大,另一个是数据中碎片化程度的大,比如整个数据集中,都是海量的小文件。当海量的小文件,凑在一起的时候,也同时会带来数据总量的大。本文所讨论的NAS业务,就属于这种场景,将面临数据保护技术和管理两个方向的难度。

解决这个问题,除了在后端数据保护管理和技术上需要有改进及优化之外,更需要在最开始规划前端数据源使用时,提前就要考虑到数据的使用及保护。即数据前端管理的分级分类。

从整体管理角度来看,数据可以依据客户业务的重要程度,分成不同的层级,每个不同层级,则会有不同的保护需求。同样情况下,常见的NAS非结构文件,也可依据客户文件的使用需求,分为两个或多个级别,以适配与不同的技术手段。同时,由于非结构化文件数据的海量特性,在同重要级别的大量文件中,依然可以通过分组的方式,来形成各种业务组,这些业务组的区分逻辑可以是IT层的,也可以是业务层的。一个平衡,均匀的分组不但能帮助业务在使用存储中避免出现读写热点现象,也能够帮助后续在数据保护过程中,传输数据以并行的多流方式去读取数据,以保障数据保护传输效率。

3. 保护管理

数据保护中的难点,除了如何高效的获取数据之外,还在于数据获取后的安全有序的存放,及按需恢复。这两点是专业数据保护软件一直致力解决的两个方向。在面向大量非结构化数据的保护时,这两个方向也同样需要考虑。

首先要考虑的是快速,尽可能高效率的将数据从NAS侧将数据备份走。对NAS侧的海量小文件的处理,可以从两个角度考虑,一个是考虑单通道的速率,另一个就是提高通道本身的数量。其次要考虑的是数据获取之后,对存放环境的专业管理,存放后的数据,要考虑自身的安全,不受内外部风险的威胁,在前端数据源需要恢复的时候,能够及时有效的恢复回去。这些关注点,是保护管理理论中的普适概念。

三、对NAS类非结构化数据保护的技术及管理支撑

从前文中需求及理论探讨来分析,我们可以列出不同角度对非结构化保护考虑的具体点。

1. 数据源端的结构提前规划

非结构化的数据,在企业各种业务发展中,经常是逐步形成了海量数据,当面临了管理和处理效率问题后,才发现最初规划的缺失。出于应对更高效读取当前非结构化数据源的目标,在数据源的最初设计规划上,我们可以考虑通过这些方法来处理非结构化文件的组织:

2. 尽量选购支持快照能力的商业NAS设备。

3. 海量数据,按业务特性,尽可能分散多于多个NAS设备中。

4. 同一个设备中,按业务组织结构区分不同的文件系统来存放不同的业务文件。

5. 按时间点来区分对时间敏感的文件,例如日志类文件,以时间段区分不同目录,且给予不同文件以时间定义,以区分文件名。

6. NAS系统中,给不同的文件系统,分配挂载不同的卷。以利于后续针对不同卷的独立读写操作。

7. 无论热数据,冷数据,按照业务价值,均需考虑是否要第二/三份额外copy。

9. 快速读取数据的不同技术手段

    a. NDMP技术。NDMP技术是非常成熟的块方式获取数据的手段,通过NAS底层的块快照,以大I/O,大流量的方式获取数据,规避纯文件层面非常耗时的文件系统扫描,提高数据保护效率。这个在很多商业NAS中,都自带相关能力,是用以保护非结构化数据的一个有力技术手段。

    b. 动态NAS并行分流技术。这是将一份大的数据量通过分为多通道,并行传输的技术手段。通过这种方式,可以将以前单通道下很难完成的传输过程,分为多条链路传输,以达到快速备份的效果。

    c. 文件加速技术。数据备份加速技术的核心是通过记录并仅备份所需备份对象的改变量,来达到提高备份效率的目标。文件系统,也可以作为一种备份源,面向不同的文件系统,很多备份产品都可以支持加速备份。同时,当使用NDMP技术备份NAS设备的时候,NDMP源也可以被记录改变量,并实现加速备份。

    d. 文件系统中的快照。

10. 数据存放的效率与安全

    a. 存放去重。数据保护过程中,一直以来都有一个难点,就是成本。获取数据后后,单纯存放下来,相对容易,可随着存放时间的拉长,以及存放内容的变多,如何用更少的存储空间,以及在更简存放后,能够即时的颗粒度的找到需要的其中一个最小文件。这个是在保护海量文件过程中的效率关键点所在。现在有很多商业化技术方案可供我们选择,在选型中,去重存放和恢复效率是可以通过指标来衡量。

    b. 异地存放。这个考虑点,从安全角度,需要考虑本地环境发生意外后,能在异地有一份可用数据。而更为关键的点是,越来越多的合规规范要求我们在数据管理的规范中,要考虑到异地存放,并且成为满足规范的必选项,例如信息安全等级保护2.0三级。

    c. 存放环境安全加固。安全指标是一直以来是IT管理中非常重要的环节,最初,恶意代码以及恶意行为直接影响业务系统及业务数据,它们的侵袭,会导致业务及数据无法持续提供服务。数据的保护以及容灾技术成为这种场景下有利的支撑业务及数据的持续服务能力。但近些年的恶意行为,已经直接将目标直接放在了用以支撑业务和数据持续运行的保护平台,例如对数据的备份环境做加密,对数据的第三方存放环境加以破坏,以达到其勒索利益的最终目标。因此,新形态的数据保护平台,业务灾备环境,需要考虑其自身的安全加固,确保自身系统能够具备类似IDS/IPS等防范以及加固能力。

    d. 配合底层WORM架构防篡改。除去系统层面的安全之外,第二份数据在存放的时候要考虑以长期保护时的完整、可靠性。也就是写入后的数据要确保不可被内外部非法手段篡改,删除。从技术层面,早期有磁带、光盘,来配合管理手段来实现,现在则可以通过利用存储的Worm能力,配合电子管理手段,实现写入数据的不可删、不可改能力,以保障数据存放的安全性。

从需求和理论分析来看,一个完整的非结构化数据源的保护,是需要一系列技术细节,配合IT管理手段,以达成最终目标。海量的非结构化数据,值得认真对待保护。

  • 13
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值