hive创建内部表时,会将数据移动到数据仓库指向的路径;
创建外部表时,仅记录数据所在的路径,不对数据的位置做任何改变,
在删除表的时候:
内部表的元数据和数据会被一起删除,
而外部表只删除元数据,不删除数据。
HDFS中已经导入了城市日期数据文件。
/user/songwei/cityFile/visitDate=2011-10-23
/user/songwei/cityFile/visitDate=2011-10-24
创建外部表:
create external table test1(ip STRING,city STRING) partitioned by(visitDate STRING)
row format delimited fields terminated by '\t' STORED AS TEXTFILE location '/user/songwei/cityFile'
在hive中执行:
select count(*) from test1 ;
没有任何返回结果。
这是因为hive并不会自动关联hdfs中指定目录的partitions目录。
需要通过:
alter table test1 add partition (visitDate=2011-10-23);
或
alter table test1 add partition(y='2014',m='05',d='01') location '2014/05/01';
进行分区与分区数据的关联。
此时可以通过查找hive对应的db的meta数据进行查看。
查找test1表:
select * from TBLS where TBL_NAME='test1'
找出表ID
查找该表对应的分区信息:
select * from PARTITIONS where tbl_id=1;
能够查到通过alter table test1 add partitions(visitDate=2011-10-23)添加的分区信息。
来源: http://blog.csdn.net/anyoneking/article/details/6906300
可以通过如下语句转换外部表和内部表
alter table tablePartition set TBLPROPERTIES ('EXTERNAL'='TRUE'); //内部表转外部表
alter table tablePartition set TBLPROPERTIES ('EXTERNAL'='FALSE'); //外部表转内部表