sqoop将db2数据导入到hive中

本文链接：https://blog.csdn.net/ypf2019/article/details/124361753

本文解析了在使用Sqoop导入Hive时，遇到的SQL查询中字段类型不匹配的问题，重点讲解了`--map-column-java`参数的使用以及如何正确映射数据库字段到Java对象。通过实例展示了如何调整字段类型并避免导入失败。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

示例1(通过–table、 --hive-table)：

sqoop import \
--connect jdbc:db2://5.19.6.xx:50000/tkdb  \
--username dbname\
--password dbpwd \
--outdir '/tmp/' \
--delete-target-dir \
--table EPLAT.contract_csc \
--hive-import \
--hive-table tklaissdb.contract_csc \
--num-mappers 1 \
--target-dir '/user/hive/csv/hdfs/contract_csc' \
--fields-terminated-by '&&&' \
--hive-drop-import-delims \
--null-string '\\N' 
--null-non-string '\\N'

示例2（通过 --query）

sqoop import \
--connect jdbc:db2://10.129.4.xxx:50000/tklodsdb  \
--username dbname\
--password dbpwd \
--outdir '/tmp/test/' \
--query "select *  from EPLAT.contract_csc where \$CONDITIONS  limit 10 " \
--hive-import \
--hive-table tklaissdb.contract_csc \
--num-mappers 1 \
--map-column-java CONTENT=String \
--target-dir '/user/hive/csv/CSV_CONTRACT_CSC1' \
--delete-target-dir \
--fields-terminated-by '$' \
--lines-terminated-by '\n' \
--hive-drop-import-delims \
--null-string '\\N' \
--null-non-string '\\N'

示例3（通过 --query）:

sqoop import \
--connect jdbc:db2://10.129.4.xxx:50000/tklodsdb  \
--username lifeuser --password T@ikanglifeuser \
--outdir '/tmp/sqoop/' \
--query "select * from CSC.rtrnpf_table where \$CONDITIONS  and trim(glcode) = 'A212101' and trim(glsign) = '-' and trim(batctrcde) in ('T24','B54','TC2','T67') and trim(sacscode) = 'LP' and trim(sacstyp) = 'AS' and trim(batccoy) || substr(batccoy,1,8) <> '23232'"  \
--hive-import \
--hive-table rs_tklaissdb.rtrnpf_csv \
--num-mappers 1 \
--target-dir '/user/hive/csv/RTRNPF_CSV' \
--delete-target-dir \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--hive-drop-import-delims

sqoop参数解释：

–connect ：数据库连接串 jdbc:db2://5.19.6.108:50000/tklodsdb
–username：数据库用户名
–password：数据库用户密码
–query：SQL语句
–map-column-java:数据库字段在生成的java文件中会映射为各种属性，且默认的数据类型与数据库类型保持对应，比如数据库中某字段的类型为bigint，则在Java文件中的数据类型为long型，通过这个属性，可以改变数据库字段在java中映射的数据类型，格式如：–map-column-java
content=String,sid=Integer
–class-name:设定生成的Java文件指定的名称
-outdir:生成的java文件存放路径
–target-dir:指定hdfs路径
–delete-target-dir:如果hdfs目录存在会把目录删除
–fields-terminated-by:设定每个字段是以什么符号作为结束的，默认是逗号，也可以改为其它符号，如’|'，示例如：–fields-terminated-by ‘|’
–hive-drop-import-delims:在导入数据到hive中时，去掉数据中\n,\r和\01这样的字符
–input-null-string :可选参数，如果没有指定，则字符串null将被使用
–null-string:为字符串列的null指定值，例如:–null-string ‘\\N’,null表示为 ‘\\N’，否则为null
–null-non-string:为非字符串列的null指定值，例如:–null-string ‘\\N’,null表示为 ‘\\N’，否则为null
-m:表明需要使用几个map任务并发执行，默认4个，最好不要将数字设置为高于集群的节点数
–as-parquetfile：保存为parquet格式文件
-split-by : 表的列名，一般后面跟主键id
-columns ‘name’ #指定导入的列

使用过程中也碰到一些问题：
例如：
–query “select trim(glsign) as name，substr(batccoy,1,8) as batccoy from EPLAT.contract_csc where $CONDITIONS limit 10”
hive表字段 name string，batccoy string
本人测试了下是报错，不能导入hive的。有知道的大佬，还望告知，拜谢。