现在是一个数据指数增长的时代,根据IDC数据预测,2025年全世界将产生175ZB的数据。未来5年的产生数据,将是过去所有产生数据的2倍以上。
这里面大部分数据是不需要存储的,在2025预计每年需要存储11ZB的数据。换算个容易理解的说法,1ZB是10^18Bytes, 相当于要写5556万块容量18TB的硬盘。
这些存储的数据中,仅10%认为是Hot频繁访问的数据,90%的数据都将是Warm/Cold温冷数据, 也就是不经常访问的数据。举个简单的例子,我们目前每人至少1部智能手机,里面存储大量的照片、视频、聊天记录等个人隐私数据,这些数据自产生后,我们开始可能会经常访问,在3个月以后,你还会对着数据有访问的诉求吗?这个概率基本会下降到1%以下。
从概率统计学来讲,超过3个月(90天)不再访问的数据,我们都可以称为冷数据,归档数据。每年全世界有25-35%的新增归档冷数据需要存储。这个市场的需求是非常的庞大。
目前归档冷数据的最终归属大多数是基于HDD,SMR,磁带Tape等介质的冷存储系统。冷存储系统的最大的优点就是成本低和数据保留时间长,但是也带来相应的缺点就是冷归档数据读取过程需要“解冻”,数据访问响应时间拉长。
从上图存储介质的出货量和类型数据,我们也可以看到,在2025年,机械硬盘包括SMR新型机械盘存储介质的占比仍然有50%。我们本文重点需要关注的是Tape磁带,如下图棕色框,每年的出货量也在不断增长。从20世纪30年代开始算的话,磁带技术也算是一位接近期颐百岁老人了,磁带技术虽然古老,但凭借独特的魅力依然挑起了世界数据存储的重担。
磁带的分类,这部分我们直接参考百度百科的简单介绍吧,大家有个感性的认识,不是本系列专题的重点。
(1)DLT/SDLT, Digital Linear Tape/Super Digital Linear Tape.
(2)DAT, Digital Audio Tape
(3)LTO, Linear Tape-Open
词条里看到LTO是HP,IBM,Seagate联合研发,其实也不算完全准确。这里补充个小插曲,大约在2000年的时候,有一个叫做Certance的公司,是从希捷磁带部门独立出去。后来在2004年,被一家叫做昆腾Quantum的公司以6000万美元的价格完全收购了,所以,我们目前看到LTO技术介绍内容时,一般说LTO是由HP、IBM、Quantum三家公司联合研发。大家后面看到这个LTO技术联合研发厂商名单的差异,不要疑惑就好。
(4)AIT, Advanced Intelligent Tape