我们在之前的文章中已经尝试获取s3的所有存储的文件大小和 最后修改时间 清洗入库。
现在可以 对 s3存储进行 精细化的 优化了。比如 对s3存储进行分层优化。
这样可以把我们的成本 明显的降低。
s3的存储目前有6层,具体什么样的数据 选择 哪种, 本篇文章进行分析。
s3存储 提供的 分层类型
Amazon S3 提供一系列适合不同使用案例的存储类。
1、S3 标准(适用于频繁访问的数据的通用存储);
2、S3 智能分层(适用于具有未知或变化的访问模式的数据);
3、S3 标准 - 不频繁访问(S3 标准 - IA) 适用于长期存在、但访问不太频繁的数据;
4、S3 单区 - 不频繁访问(S3 单区 - IA) 适用于长期存在、但访问不太频繁的数据;
5、 Amazon S3 Glacier (S3 Glacier) (适用于长期存档和数字保留)
6、 Amazon S3 Glacier 深度存档(S3 Glacier 深度存档)(适用于长期存档和数字保留)
Amazon S3 还提供了在整个数据生命周期内管理数据的功能(可界面操作也可以通过sdk代码实现)。
设置 S3 生命周期策略之后,无需更改您的应用程序,您的数据将自动传输到其他存储类。
总览和性能层面
通用
Amazon S3 标准(S3 标准)
针对频繁访问的数据,S3 标准提供较高的持久性、可用性和性能对象存储。
由于 S3 标准可交付低延迟的高吞吐量,因此适合广泛使用案例,包括云应用程序、动态网站、内容分配、移动和游戏应用程序以及大数据分析。
主要特征:
较低的延迟和较高的吞吐量性能
可跨多个可用区实现 99.999999999% 的对象的持久性
针对影响整个可用区的事件具有弹性
经过设计,可在指定年度内实现 99.99% 的可用性
由 Amazon S3 服务等级协议提供支持,实现可用性
支持传输中数据 SSL 和静态数据加密
用于自动将对象迁移到其他 S3 存储类的 S3 生命周期管理
未知或变化的访问
Amazon S3 智能分层(S3 智能分层)
S3 智能分层存储类设计为通过自动将数据移至最经济高效的访问层,而不影响性能或运行开销来优化成本。
它的工作原理是:将对象存储在两个访问层中:一个层已针对频繁访问而优化,另一个成本较低的层已针对不频繁访问而优化。
对于每对象的小额月度监控和自动化费用,Amazon S3 监控 S3 智能分层中对象的访问模式,然后将连续 30 天未访问的对象移至不频繁访问层。
如果访问不频繁访问层中的对象,则对象将自动移回频繁访问层。
在使用 S3 智能分层存储类时不收取检索费用,并且在访问层之间移动对象不收取额外的分层费用。
对于访问模式未知或不可预测的长期存在的数据,它是理想的存储类。
主要特征:
和 S3 标准相同的较低延迟和较高吞吐量性能
小额月度监控和自动分层费用
基于变化的访问模式在两种访问层之间自动移动对象
可跨多个可用区实现 99.999999999% 的对象的持久性
针对影响整个可用区的事件具有弹性
经过设计,可在指定年度内实现 99.9% 的可用性
由 Amazon S3 服务等级协议提供支持,实现可用性
支持传输中数据 SSL 和静态数据加密
用于自动将对象迁移到其他 S3 存储类的 S3 生命周期管理
不频繁访问
Amazon S3 标准 - 不频繁访问(S3 标准 - IA)
S3 标准 - IA 适用于不常访问、但在需要时要求快速访问的数据。
S3 标准 – IA 提供较高的持久性、较高的吞吐量以及较低的 S3 标准延迟,并且每 GB 的存储价格和检索费用都较低。
成本较低且性能出色使得 S3 标准 - IA 成为长期存储和备份的理想选择,也非常适用于灾难恢复文件的数据存储。
主要特征:
和 S3 标准相同的较低延迟和较高吞吐量性能
可跨多个可用区实现 99.999999999% 的对象的持久性
针对影响整个可用区的事件具有弹性
数据在整个可用区遭到破坏时具有弹性
经过设计,可在指定年度内实现 99.9% 的可用性
由 Amazon S3 服务等级协议提供支持,实现可用性
支持传输中数据 SSL 和静态数据加密
用于自动将对象迁移到其他 S3 存储类的 S3 生命周期管理
Amazon S3 单区 - 不频繁访问(S3 单区 - IA)
S3 单区 - IA 适用于不常访问、但在需要时要求快速访问的数据。
其他 S3 存储类将数据存储在至少三个可用区 (AZ) 中,而 S3 单区 - IA 将数据存储在单个 AZ 中并且成本较 S3 标准 - IA 低 20%。
S3 单区 - IA 非常适合希望针对不频繁访问的数据使用较低费用选项且不需要 S3 标准或 S3 标准 - IA 的可用性和弹性的客户。
对于存储本地数据或可轻松重新创建的数据的辅助备份副本,它是一个理想的选择。对于使用 S3 跨区域复制从另一 AWS 账户复制的数据,您还可使用它作为其经济高效的存储。
S3 单区 - IA 提供相同的持久性†、较高的吞吐量以及较低的 S3 标准延迟,并且每 GB 的存储价格和检索费用都较低。
主要特征:
和 S3 标准相同的较低延迟和较高吞吐量性能
经过设计,可在单个可用区中实现对象的 99.999999999% 的持久性†
可在指定年度内实现 99.5% 的可用性
由 Amazon S3 服务等级协议提供支持,实现可用性
支持传输中数据 SSL 和静态数据加密
用于自动将对象迁移到其他 S3 存储类的 S3 生命周期管理
† 由于 S3 单区 – IA 将数据存储在单个 AWS 可用区中,存储在这个存储类中的数据将在可用区销毁时丢失。
存档
Amazon S3 Glacier (S3 Glacier)
S3 Glacier 是安全、持久且成本低的存储类,可用于数据存档。
您可以放心存储任意大小的数据 – 成本与本地解决方案相当,甚至更低。
为了保持成本低廉,同时满足各种需求,S3 Glacier 提供三种检索选项,各自的检索时间从数分钟到数小时不等。
主要特征:
可跨多个可用区实现 99.999999999% 的对象的持久性
数据在整个可用区遭到破坏时具有弹性
支持传输中数据 SSL 和静态数据加密
成本低,非常适合长期存档
检索时间可配置,从数分钟到数小时不等
用于直接上传到 S3 Glacier 的 S3 PUT API,以及用于对象自动迁移的 S3 生命周期管理
Amazon S3 Glacier Deep Archive (S3 Glacier Deep Archive)
S3 Glacier Deep Archive 是 Amazon S3 成本最低的存储类,支持每年可能访问一两次的数据的长期保留和数字预留。
它是为客户设计的 – 特别是那些监管严格的行业,如金融服务、医疗保健和公共部门 – 为了满足监管合规要求,将数据集保留 7-10 年或更长时间。
S3 Glacier Deep Archive 还可用于备份和灾难恢复使用案例,是成本效益高、易于管理的磁带系统替代,无论磁带系统是本地库还是非本地服务都是如此
S3 Glacier Deep Archive 是 Amazon S3 Glacier 的补充,后者适合存档,其中会定期检索数据并且每隔几分钟可能需要一些数据。
存储在 S3 Glacier Deep Archive 中的所有对象都将接受复制并存储在至少三个地理分散的可用区中,受 99.999999999% 的持久性保护,并且可在 12 小时内恢复。
主要特征:
可跨多个可用区实现 99.999999999% 的对象的持久性
为长期保留的数据(保留 7-10 年)设计的成本最低的存储类
磁带库的完美替代
检索时间为 12 小时以内
用于直接上传到 S3 Glacier Deep Archive 的 S3 PUT API,以及