hive元数据管理
我们通常会使用MySQL管理hive的元数据,只要在hive-site.xml中写入库路径、连接驱动、用户名和密码即可。
但是在企业中,我们可以使用统一元数据管理:EMR
相较于MySQL,EMR有如下优点
- EMR中的数据不会随着集群的释放而消失,所以可以实现元数据的持久化存储,但是需要注意的一点是在删除表之前,一定要确认元数据已经删除,否则会造成脏数据的产生
- 第二个优点,可以实现计算存储分离,可以把数据放在阿里云的OSS上,节省了数据迁移问题的同时,也大大节省了集群成本,EMR集群只负责计算,计算后可直接释放,在OSS上实现存储
- 可以实现多个EMR集群的资源共享,不必进行元数据的迁移和共享,所有的数据都存储在OSS,可以直接进行访问。
但是要注意的是EMR-WEB端只能创建外部表和分区表。