背景:hive表A,由于创建是text格式的,随着时间历史,该表数据量巨大,急需对该表进行治理
方案一:把text格式转成ORC格式,可以大大减低数据存储量
操作方法1: 修改之后,新分区将会采用orc格式压缩,老分区还是保留text格式的
hive命令行:alter table A set fileformat orc;即可
2:修改之后,新老分区将会采用orc格式;注意:重新写入旧分区才行
命令: (1) set hive.exec.compress.output=true ;
(2) set mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
以上两个操作就可以达到目的,可以建个临时表测试一下即可