近年来,人工智能、生命科学、高性能计算这些前沿行业,每天都在输入大量非结构化的数据,为了保存和维护好数据这个新型的生产要素,企业每年支付用于非结构化数据存储上的成本也在快速增长。
数据也有冷热之分
对于很多企业来说,尤其生物信息公司,由于数据量庞大,数据按照被使用的频率,通常被划分为热数据、温数据和冷数据。同一数据,在生命周期的不同阶段,也会经历热/冷/温三个阶段。
热数据特点:数据量少,访问频率较大,对于性能要求高,经常对数据进行操作。
冷数据特点:数据量大、访问频率较低、对于性能要求低、对于数据操作简单。
为了支持热数据的操作特性,需要较好的硬件配置,比如高性能CPU、大内存、SSD硬盘等等。随着时间的推移,系统里会积累越来越多的历史数据(冷数据),如果依然采用高配置设备来存放这些使用频率非常低的数据,势必会带来高昂的成本。
将冷数据平滑的流转到廉价的存储空间不失为一个好办法。在这之前,要解决2个问题,首先,如何区分冷/热数据,第二,如何做到“平滑”
如何区分冷热数据
如何科学的将数据进行冷/热划分,从而有效的将真正的