数据湖实操讲解【数据迁移】第三讲:如何将 HDFS 海量文件归档到 OSS

数据湖技术圈

本期导读  :【数据迁移】第三讲

主题:如何将 HDFS 海量文件归档到 OSS

讲师:辰石,阿里巴巴计算平台事业部 EMR 技术专家

内容框架:

  • 背景介绍

  • 具体功能详解

  • 使用实例

直播回看链接:(3/4讲)

https://developer.aliyun.com/live/246750

1

背景简述

HDFS 数据迁移

  • 用户需要将数据存储在 IDC 机房的 HDFS 的集群内。

  • HDFS 的集群的空间依赖本地磁盘空间,本地磁盘空间有限,但是业务数据不断增长。

  • 计算存储分离虽然可以不用担心存储容量,但是对象存储相关性能可能不及本地 HDFS 性能。

  • 业务数据的时效性,业务数据随时间迁移数据价值也会相对降低,从而导致数据的存储成本上升。

HDFS 数据存储成本

  • 考虑到实际使用 HDFS 会有3副本以及一定的预留空间,我们以 HDFS 3 副本、80% 使用率进行成本计算, 参考 https://www.aliyun.com/price/product#/ecs/detail

HDFS / OSS 存储成本对比

  • OSS 归档数据的存储成本只有 HDFS 数据存储成本的20%, OSS冷归档的存储不到 HDFS  数据存储的10%

2

具体详解

HDFS 数据归档

Jindo DistCp 工具

  • 全量支持 HDFS / OSS / S3 之间的的数据拷贝场景

  • 重点优化 HDFS / OSS 数据拷贝场景,支持 No-Rename 拷贝

  • 支持 DistCp 过程数据 CheckSum 校验

具体可参考 Github:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/tools/table_moveto.md

通过 DistCp 工具选项 —— policy 指定数据存储类型


选项说明
标准(standard)数据迁移到OSS标准存储,可读
低频(ia)数据迁移到OSS低频存储,可读
归档(archive)

数据迁移到OSS归档存储,不可直接读取

冷归档(coldArchive)数据迁移到OSS冷归档存储,不可直接读取

HDFS 数据迁移命令

  • 写入低频数据

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey -- ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy ia --parallelism 10

  • 写入归档数据

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy archive --parallelism 10

  • 写入冷归档数据

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy coldArchive --parallelism 10

HDFS 命令查看数据类型

  • HDFS LS2 扩展命令

hdfs –fs –ls2 oss://xxxxx/xxxxx

  • 可参考详细介绍链接

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_hdfsToOss_pre.md

3

演示操作

  • 准备测试脚本,包含 DistCp 到OSS 各种存储类型的文件,测试文件大小为10M

  • 执行测试脚本进行数据拷贝

  • 查看 OSS 数据的存储类型


点击文章下方阅读原文,直接观看第二课(3/4讲)视频回放,查看实例讲解~

Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!


数据湖技术圈

长按扫码关注公众号

获取最新技术资讯

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值