Iceberg从入门到精通系列之二:Iceberg集成Hive

理解Iceberg核心概念可以阅读博主下面这篇技术博客:

一、Hive引入Iceberg的jar包

拷贝Iceberg的jar包到Hive的auxlib目录中

mkdir auxlib
cp iceberg-hive-runtime-1.1.0.jar /opt/module/hive/auxlib
cp libfb303-0.9.3.jar /opt/module/hive/auxlib

二、修改hive-site.xml

<property>
	<name>iceberg.engine.hive.enable</name>
	<value>true</value>
<property>

<property>
	<name>hive.aux.jars.path</name>
	<value>/opt/module/hive/auxlib</value>
</property>

三、启动hadoop集群

  • 启动hdfs
  • 启动yarn
  • 启动historyserver

四、启动hive元数据服务

Hive的元数据服务是一种存储和管理Hive表格和数据定义的中央服务,它允许用户定义表格、分区和桶等元数据信息,并将其存储在Hive元数据存储库中。Hive元数据服务还提供了一个API,允许用户检索、查询和修改这些元数据信息。Hive元数据服务是Hive的重要组成部分,使用户能够轻松地管理和使用大规模数据集。它还提供了丰富的元数据信息,可以帮助用户优化查询性能,如使用分区和桶来对数据进行分组和排序等。

hive --service metastore

更详细的步骤如下所示:

在启动Hive之前,需要先启动Hadoop的NameNode和DataNode服务。然后,可以通过以下步骤启动Hive元数据服务:

  1. 配置hive-site.xml文件,指定Hive元数据存储库的类型和连接信息。例如,可以使用MySQL数据库作为Hive元数据存储库,需要设置如下属性:
<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.cj.jdbc.Driver</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hive</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>hive123</value>
</property>
<property>
  <name>hive.metastore.warehouse.dir</name>
  <value>/user/hive/warehouse</value>
</property>
  1. 启动HiveServer2服务,以提供对Hive的客户端连接,并将Hive元数据服务连接到指定的数据库中。可以使用以下命令启动HiveServer2服务:
hive --service hiveserver2
  1. 启动Hive元数据服务,以提供对Hive元数据存储库的访问。可以使用以下命令启动Hive元数据服务:
hive --service metastore

启动完成后,可以使用Beeline或其他Hive客户端工具连接到HiveServer2服务,并使用Hive元数据服务来管理和查询Hive表格和数据。

五、进入Hive数据库

方式一:直接进入Hive数据库

hive

方式二:
使用Beeline连接到HiveServer2服务,可以使用以下命令:

beeline -u jdbc:hive2://:/dbname -n -p

其中,是HiveServer2服务所在的主机名,是HiveServer2服务监听的端口号,是连接的Hive数据库名,是连接的用户名,是连接的密码。

例如,连接到HiveServer2服务所在的主机名为localhost,端口号为10000,数据库名为default,用户名为hive,密码为hive123的Hive数据库,可以使用以下命令:

beeline -u jdbc:hive2://localhost:10000/default -n hive -p hive123

六、创建和管理Catalog

  • Iceberg支持多种不同的Catalog类型,例如:Hive、Hadoop、亚马逊的AWS Glue和自定义的Catalog

根据不同配置,分为三种情况:

  • 没有设置iceberg.catalog,默认使用HiveCatalog
  • 设置了iceberg.catalog的类型,使用指定的Catalog类型
配置项说明
iceberg.catalog.<catalog_name>.typeCatalog的类型:hive,hadoop,如果使用自定义Catalog,则不设置
iceberg.catalog.<catalog_name>.catalog-implCatalog的实现类,如果上面的type没有设置,则此参数必须设置
iceberg.catalog.<catalog_name>.Catalog的其他配置项
  • 设置iceberg.catalog=location_based_table,直接通过指定的根路径来加载Iceberg表

七、使用HiveCatalog

创建表

CREATE TABLE iceberg_test (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';

插入数据

INSERT INTO iceberg_test values(1);

查看HDFS可以发现,表目录在默认的hive仓库路径下

查看表

describe iceberg_test1;

查看表的详细信息:

describe formatted iceberg_test1;

创建的表会在hive默认的路径下

<!-- Hive默认在HDFS的工作目录 -->
<property>
	<name>hive.metastore.warehouse.dir</name>
	<value>/user/hive/warehouse</value>
</property>

插入数据

insert into iceberg_test1 values(1);

八、指定Catalog类型HiveCatalog

set iceberg.catalog.iceberg_hive.type=hive;
set iceberg.catalog.iceberg_hive.url=thrift://hadoop1:9083;
set iceberg.catalog.iceberg_hive.clients=10;
set iceberg.catalog.iceberg_hive.warehouse=hdfs://hadoop1:8020/warehouse/iceberg-hive;

创建表

CREATE TABLE iceberg_test2 (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
TBLPROPERTIES('iceberg.catalog'='iceberg_hive');

INSERT INTO iceberg_test2 values(1);

查看表的详细信息:

describe formatted iceberg_test1;

九、指定Catalog类型HadoopCatalog

set iceberg.catalog.iceberg_hadoop.type=hadoop;
set iceberg.catalog.iceberg_hadoop.warehouse=hdfs://hadoop1:8020/warehouse/iceberg-hadoop

创建表

CREATE TABLE iceberg_test3 (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
LOCATION 'hdfs://hadoop1:8020/warehouse/iceberg-hadoop/default/iceberg_test3'
TBLPROPERTIES('iceberg.catalog'='iceberg_hadoop');

插入数据

INSERT INTO iceberg_test3 values(1);

十、指定路径加载

如果HDFS中已经存在iceberg格式表,可以通过在Hive中创建iceberg格式表指定对应的location路径映射数据。

CREATE EXTERNAL TABLE iceberg_test4(i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
LOCATION 'hdfs://hadoop1:8020/warehouse/iceberg-hadoop/default/iceberg_test3'
TBLPROPERTIES ('iceberg.catalog'='location_based_table');
  • 加载已经存在的iceberg表iceberg_test3的数据,要求表结构相同,路径定位到表iceberg_test3
  • TBLPROPERTIES (‘iceberg.catalog’=‘location_based_table’);默认值

查询数据

select * from iceberg_test4;
  • 如果创建的表是内部表iceberg_test4,删除表iceberg_test4,会导致iceberg_test3表的数据被删除。
  • 如果创建的表是外部表,删除表iceberg_test4,不会影响表iceberg_test3表的数据。

十一、Hive内部表和外部表的区别

补充Hive内部表和外部表的区别:

在Hive中,内部表和外部表是两种不同的表格类型。

  • 内部表是通过Hive自己的存储格式存储在Hive仓库目录下的表格,其数据和元数据都由Hive管理。数据和表格的定义存储在Hive仓库的目录结构中。内部表有一个默认的存储位置,当用户删除表格时,Hive会删除表格的数据和元数据。
  • 外部表是基于现有数据文件或表格的定义创建的Hive表格。外部表的数据和元数据都保存在外部数据源中,Hive只是指向这些数据源,并提供表格的结构,作为对数据源的抽象表示。当用户删除外部表时,只有元数据被删除,而不会删除实际的存储数据。

因此,内部表和外部表的主要区别在于数据和元数据的存储位置和管理方式。内部表由Hive管理数据和元数据,而外部表只由Hive管理元数据,实际的存储数据由外部数据源维护。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Hive 3 可以通过使用 Hudi 和 Iceberg 插件来适配它们。 对于 Hudi,可以使用以下步骤进行适配: 1. 下载 Hudi 插件,并将其添加到 Hive 的 CLASSPATH 中。 2. 创建 Hudi 表时,需要指定表类型为 "Hudi",并且使用 Hudi 相关的属性设置。 3. 对于已有的 Hive 表,可以使用 CTAS(Create Table As Select)语句将其转换为 Hudi 表。例如: ``` CREATE TABLE my_table STORED AS ORC AS SELECT * FROM existing_table ``` 可以改为: ``` CREATE TABLE my_hudi_table USING org.apache.hudi OPTIONS ( ... ) AS SELECT * FROM existing_table ``` 对于 Iceberg,可以使用以下步骤进行适配: 1. 下载 Iceberg 插件,并将其添加到 Hive 的 CLASSPATH 中。 2. 创建 Iceberg 表时,需要指定表类型为 "Iceberg",并且使用 Iceberg 相关的属性设置。 3. 对于已有的 Hive 表,可以使用 CTAS(Create Table As Select)语句将其转换为 Iceberg 表。例如: ``` CREATE TABLE my_table STORED AS ORC AS SELECT * FROM existing_table ``` 可以改为: ``` CREATE TABLE my_iceberg_table USING org.apache.iceberg OPTIONS ( ... ) AS SELECT * FROM existing_table ``` 需要注意的是,Hive 3 默认支持 ACID(原子性、一致性、隔离性、持久性)和事务,而 Hudi 和 Iceberg 也都支持 ACID 和事务。因此,在使用 Hudi 和 Iceberg 插件时,需要将 Hive 的 ACID 和事务功能关闭,以避免冲突。可以通过将相关配置项设置为 false 来关闭 ACID 和事务功能。例如: ``` SET hive.support.concurrency=false; SET hive.txn.manager=false; ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

最笨的羊羊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值