对于我来说,应对CDH 或者 hadoop 集群迁移;
迁移肯定分几大步:
1、新集群搭建
2、数据迁移
3、新旧集群衔接,下线旧集群
当做第二步的时候,我使用的distcp(个人觉得hdfs跨集群数据迁移比较优秀的方式)
迁移后,hive表建好后,需要修复元数据(说白了就是让hive知道表中数据位置)
命令:
msck repair table 表名
注意:
单分区双分区表测试直接修复没问题
当多于双分区后,例如三个分区partation (xx,xxx,xxx)
修复依然无用
就需要加上以下配置再修复:
set hive.msck.path.validation=ignore
msck repair table 表名