一、前言
- Apache Sqoop是Apache软件基金会下的一个子项目,用于在Apache Hadoop和结构化数据存储(例如关系型数据库)之间进行数据传输。通过Sqoop,可以将一个结构化数据存储中的数据传输到Hadoop集群中的HDFS中,或将HDFS中的数据传输到关系型数据库中。本文将带大家了解如何使用sqoop抽数导入导出。
二、下载JDBC驱动测试
- 下载Postgresql的jdbc
-
下载链接:https://download.csdn.net/download/weixin_45971974/87870330
-
将下载的jdbc驱动包放到sqoop的lib下
cp postgresql-42.5.0.jar /opt/cloudera/parcels/CDH/lib/sqoop/lib/
- 测试连接是否正常,此命令将列出postgresql数据源中的所有表名称
sqoop list-tables \
--connect "jdbc:postgresql://172.17.209.4:5432/dc_db" \
--driver "org.postgresql.Driver" \
--username sqoop \
--password 123456
三、进行抽数导出(Hive_to_Postgresql)
- hive全量导出到Postgresql
sudo -u hive sqoop export \
--connect "jdbc:postgresql://172.17.209.4:5432/dc_db" \
--driver "org.postgresql.Driver" \
--username sqoop \
--password 123456 \
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--input-fields-terminated-by '\t' \
--table postgresql_tables \
--columns "time,db,tb" \
--hcatalog-database hive_database \
--hcatalog-table hive_tables \
-m 1;
- hive增量导出到Postgresql
sudo -u hive sqoop export \
--connect "jdbc:postgresql://172.17.209.4:5432/dc_db" \
--driver "org.postgresql.Driver" \
--username sqoop \
--password 123456 \
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--input-fields-terminated-by '\t' \
--table postgresql_tables \
--hcatalog-database hive_database \
--hcatalog-table hive_tables \
--query 'SELECT * FROM hive_database.hive_tables where 1=1 AND partition_day >= '2023-01-01' and $CONDITIONS' \
-m 1;
四、Postgresql导出到hive
- Postgresql_to_hive
sudo -u hive sqoop import \
--D mapred.job.queue.name='root.default' \
--connect "jdbc:postgresql://172.17.209.4:5432/dc_db" \
--driver "org.postgresql.Driver" \
--username sqoop \
--password 123456 \
--query "select * from postgresql_tables where 1=1 AND \$CONDITIONS;" \
--hive-database=hive_database \
--hive-import \
--hive-table hive_tables \
--null-string '\\N' \
--null-non-string '\\N' \
--target-dir /tmp/hive_tables_number_test_hive \
--hive-overwrite \
--delete-target-dir \
--hive-drop-import-delims \
--fields-terminated-by "\001" \
--lines-terminated-by '\n' \
--m 1;
五、总结
- 在导出数据之前,需要确保Hive表和PostgreSQL表之间的数据类型和映射关系匹配一致,以避免数据异常和错误。
- 在导入和导出数据时,Sqoop和Hive需要连接到PostgreSQL数据库,并需要提供相应的连接信息和凭据。还可以使用Sqoop和Hive提供的高级选项来控制数据传输的行为和优化性能,例如并行传输,分区导入等。
- 总的来说,Sqoop和Hive是非常实用的工具,可以帮助用户在Hadoop和关系型数据库之间高效地进行数据传输和处理。如何合理使用这2个工具,需要根据实际情况调整和优化。