1. hive中的表的分类
1.1 内部表(管理表)
create table t3(name string,.....);
就是说数据的生命周期受表的控制,当表删除的时候,其数据文件一并被删除
1.2 外部表
create ==external== table t4(name string,....);
就是说数据的生命周期不受表的控制,当表删除的时候,其数据文件并不会删除
1.3 分区表
- 分区可以理解为分类,通过分类把不同类型的数据放到不同的目录下
- 分类的标准就是分区字段,可以一个,也可以多个
- 分区表的意义在于优化查询。查询时尽量利用分区字段。如果不使用分区字段,就会全部扫描
- 分区表也是hive优化的一种很重要的手段
入库数据:
小明 23 1994
小花 20 1993
小丽 30 1992
创建分区表(指定分区字段)
- create table t7(name string,age int) **partitioned by(year string,month string)** row format delimited fields terminated by ' ';
给分区表添加分区
alter table t7 add partition(year=2008,month=02);
alter table t7 add partition(year=2008,month=03);