sqoop Hive导入Postgresql导出

一、前言

  • Apache Sqoop是Apache软件基金会下的一个子项目,用于在Apache Hadoop和结构化数据存储(例如关系型数据库)之间进行数据传输。通过Sqoop,可以将一个结构化数据存储中的数据传输到Hadoop集群中的HDFS中,或将HDFS中的数据传输到关系型数据库中。本文将带大家了解如何使用sqoop抽数导入导出。
    在这里插入图片描述

二、下载JDBC驱动测试

  • 下载Postgresql的jdbc
  1. 下载链接:https://download.csdn.net/download/weixin_45971974/87870330

  2. 将下载的jdbc驱动包放到sqoop的lib下

cp postgresql-42.5.0.jar /opt/cloudera/parcels/CDH/lib/sqoop/lib/

在这里插入图片描述

  1. 测试连接是否正常,此命令将列出postgresql数据源中的所有表名称
sqoop list-tables \
--connect "jdbc:postgresql://172.17.209.4:5432/dc_db"  \
--driver "org.postgresql.Driver" \
--username sqoop \
--password 123456

在这里插入图片描述

三、进行抽数导出(Hive_to_Postgresql)

  • hive全量导出到Postgresql
sudo -u hive sqoop export \
--connect  "jdbc:postgresql://172.17.209.4:5432/dc_db" \
--driver "org.postgresql.Driver" \
--username sqoop \
--password 123456 \
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--input-fields-terminated-by '\t' \
--table postgresql_tables \
--columns "time,db,tb" \
--hcatalog-database hive_database \
--hcatalog-table hive_tables \
-m 1;
  • hive增量导出到Postgresql
sudo -u hive sqoop export \
--connect  "jdbc:postgresql://172.17.209.4:5432/dc_db" \
--driver "org.postgresql.Driver" \
--username sqoop \
--password 123456 \
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--input-fields-terminated-by '\t' \
--table postgresql_tables \
--hcatalog-database hive_database \
--hcatalog-table hive_tables \
--query 'SELECT * FROM hive_database.hive_tables where 1=1 AND partition_day >= '2023-01-01' and $CONDITIONS' \
-m 1;

在这里插入图片描述

四、Postgresql导出到hive

  • Postgresql_to_hive
sudo -u hive sqoop import \
--D mapred.job.queue.name='root.default' \
--connect  "jdbc:postgresql://172.17.209.4:5432/dc_db" \
--driver "org.postgresql.Driver" \
--username sqoop \
--password 123456 \
--query "select * from postgresql_tables where 1=1 AND \$CONDITIONS;" \
--hive-database=hive_database \
--hive-import \
--hive-table hive_tables \
--null-string '\\N' \
--null-non-string '\\N' \
--target-dir /tmp/hive_tables_number_test_hive \
--hive-overwrite \
--delete-target-dir \
--hive-drop-import-delims \
--fields-terminated-by "\001" \
--lines-terminated-by '\n' \
--m 1;

在这里插入图片描述

五、总结

  • 在导出数据之前,需要确保Hive表和PostgreSQL表之间的数据类型和映射关系匹配一致,以避免数据异常和错误。
  • 在导入和导出数据时,Sqoop和Hive需要连接到PostgreSQL数据库,并需要提供相应的连接信息和凭据。还可以使用Sqoop和Hive提供的高级选项来控制数据传输的行为和优化性能,例如并行传输,分区导入等。
  • 总的来说,Sqoop和Hive是非常实用的工具,可以帮助用户在Hadoop和关系型数据库之间高效地进行数据传输和处理。如何合理使用这2个工具,需要根据实际情况调整和优化。
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值