HDFS数据灾备

1.1  HDFS数据灾备
实现目的:
A集群与B集群均正常工作,A集群上固定存储数据文件的文件夹,同步至B集群,每日在A集群上对数据文件的增加、修改、删除的操作,同步到B集群,使A集群与B集群保持同样的数据,当A集群因故障不可用时,可使用B集群上的备份数据。
 
实现原理
hadoop distcp命令可以实现不同集群之间相同版本和不同版本hadoop的数据同步及迁移。hadoop中有一个叫做distcp(分布式复制)的有用程序,能从hadoop的文件系统并行复制大量数据。
distcp一般用于在两个HDFS集群中传输数据:
例: hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar 
这将从第一个集群中复制/foo目录(和它的内容)到第二个集群中的/bar目录下,所以第二个集群会有/bar/foo目录结构。如果/bar不存在,则会新建一个。可以指定多个源路径,并且所有的都会被复制到目标路径。源路径必须是绝对路径。默认情况下,distcp会跳过目标路径已经有的文件,但可以通过提供的-overwrite选项进行覆盖,也可以用-update选项来选择只更新那些修改过的文件。
第一个集群的子树/foo下的一个文件与第二个集群的改变进行同步。
% hadoop distcp -update hdfs://namenode1/foo hdfs://namenode2/bar/foo 
distcp是作为一个MapReduce作业执行的,复制工作由集群中并行运行的map来完成。这里没有reducer。每个文件都由一个单一的map进行复制,并且distcp通过将文件分成大致相等的文件来为每个map数量大致相同的数据。
 
根据以上命令编写定时执行脚本,根据数据量和带宽情况设定传输需要的map数量,判断如果有分析任务,备份操作顺延到下个备份时间点。同时利用集群A与集群B的HDFS快照验证数据备份成功。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值