Hive 可以将一个未分区的表中的数据导入到一个分区表时候,将其中的一列作为动态分区导入到分区表的分区列中
示例语句
create table hive_dync_no_partition(
`id` STRING COMMENT '编号',
`name` STRING COMMENT '姓名',
`age` INT COMMENT '年龄'
) COMMENT '测试动态分区-无分区表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
insert into hive_dync_no_partition values('0001','zhangsan',12);
insert into hive_dync_no_partition values('0002','李四',15);
insert into hive_dync_no_partition values('0003','王五',12);
insert into hive_dync_no_partition values('0004','赵六',15);
insert into hive_dync_no_partition values('0005','tom',15);
insert into hive_dync_no_partition values('0006','jack',15);
create table hive_dync_partition(
`id` STRING COMMENT '编号',
`name` STRING COMMENT '姓名'
) COMMENT '测试动态分区-分区表'
PARTITIONED BY (`age` INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
set hive.exec.max.dynamic.partitions=1500;
insert into hive_dync_partition partition(age) select id,name,age from hive_dync_no_partition;
select * from hive_dync_partition;
输出:
0001,zhangsan,12
0003,王五,12
0002,李四,15
0004,赵六,15
0005,tom,15
0006,jack,15
hive 设置说明
- hive.exec.dynamic.partition=true
- 是否允许动态分区
- 默认值:false
- hive.exec.dynamic.partition.mode=nostrict
- 分区模式设置
- 默认值:strict
- strict:必须指定至少一个分区为静态分区;
- nostrict:允许所有的分区字段都可以使用动态分区;
- hive.exec.max.dynamic.partitions.pernode=1000
- 单个节点上的 mapper/reducer 允许创建的最大分区;
- 默认值:100
- 在每个执行 MR 的节点上,最大可以创建多少个动态分区,该参数根据实际情况设置;
- 如:数据中包含一年的数据,即 day 字段有 365 个值,此参数就要大于 365,否则会报错;
- hive.exec.max.dynamic.partitions=1500
- 允许动态分区的最大数量
- 默认值:1000
- 在所有执行 MR 的节点上,最大一共可以创建多少个动态分区;