HBase数据迁移

望天狼

已于 2023-07-25 10:24:02 修改

阅读量387

点赞数 1

文章标签： hbase 数据库大数据

于 2023-07-25 10:14:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43845743/article/details/130627822

版权

本文详述了一次大规模HBase数据迁移的过程，包括存量数据的快照备份与恢复，增量数据的处理策略，以及在整个迁移过程中的关键步骤和问题解决。通过使用HBase的快照、clone_snapshot、major_compact等命令，成功迁移了几百TB的数据，并讨论了增量数据的处理方法，如WAL日志的回放和双写策略。迁移过程中强调了规划和预防意外的重要性，以确保数据的一致性和完整性。

摘要由CSDN通过智能技术生成

一、数据迁移背景

因公司技改，大数据集群要异地重建，因此涉及到数据要从旧的集群迁移到新的大数据集群中。此次涉及的数据量有几百T，由于公司内部人员没有接触过这么大的数据迁移工作，本人之前虽然做过集群迁移、数据迁移工作，但规模相对较小。鉴于此，公司决定将该部分工作外包出去。因此自己也没有过多的去关注。但不幸的是，数据迁移工作开始的前两周，都没和第三方洽谈好，最终这事又落到了本人头上。致命的是要求两周搞定。

二、数据迁移前期准备

接到该任务，先进行了工作划分，分成两大块：存量数据和增量数据。存量数据很好解决，新版本2.x支持快照数据备份。这种方式还是很高效的。自己先在测试环境进行了相关测试。先把坑排一排，还别说坑还真不少。最后自己写了几个脚本，实现了1000+张表的自动化迁移工作。这里涉及了几个关键的命令，这里奉上：

原始数据表进行快照 : snapshot ‘hbase_src_table_name’,‘HBase_src_table_name_snapshot’
通过快照对原始数据表进行备份 : clone_snapshot ‘HBase_src_table_name_snapshot’, ‘new_hbase_table_name’
对备份表进行major_compact合并 : major_compact ‘备份表名’
将表的快照进行迁移：
hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot
-snapshot HBase_src_table_name_snapshot
-copy-from hdfs://192.168.71.3:25000/hbase
-copy-to hdfs://192.168

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。