sqoop将db2数据导入到hive中

本文解析了在使用Sqoop导入Hive时,遇到的SQL查询中字段类型不匹配的问题,重点讲解了`--map-column-java`参数的使用以及如何正确映射数据库字段到Java对象。通过实例展示了如何调整字段类型并避免导入失败。
摘要由CSDN通过智能技术生成

示例1(通过–table、 --hive-table):

sqoop import \
--connect jdbc:db2://5.19.6.xx:50000/tkdb  \
--username dbname\
--password dbpwd \
--outdir '/tmp/' \
--delete-target-dir \
--table EPLAT.contract_csc \
--hive-import \
--hive-table tklaissdb.contract_csc \
--num-mappers 1 \
--target-dir '/user/hive/csv/hdfs/contract_csc' \
--fields-terminated-by '&&&' \
--hive-drop-import-delims \
--null-string '\\N' 
--null-non-string '\\N'

示例2(通过 --query)

sqoop import \
--connect jdbc:db2://10.129.4.xxx:50000/tklodsdb  \
--username dbname\
--password dbpwd \
--outdir '/tmp/test/' \
--query "select *  from EPLAT.contract_csc where \$CONDITIONS  limit 10 " \
--hive-import \
--hive-table tklaissdb.contract_csc \
--num-mappers 1 \
--map-column-java CONTENT=String \
--target-dir '/user/hive/csv/CSV_CONTRACT_CSC1' \
--delete-target-dir \
--fields-terminated-by '$' \
--lines-terminated-by '\n' \
--hive-drop-import-delims \
--null-string '\\N' \
--null-non-string '\\N'

示例3(通过 --query):

sqoop import \
--connect jdbc:db2://10.129.4.xxx:50000/tklodsdb  \
--username lifeuser --password T@ikanglifeuser \
--outdir '/tmp/sqoop/' \
--query "select * from CSC.rtrnpf_table where \$CONDITIONS  and trim(glcode) = 'A212101' and trim(glsign) = '-' and trim(batctrcde) in ('T24','B54','TC2','T67') and trim(sacscode) = 'LP' and trim(sacstyp) = 'AS' and trim(batccoy) || substr(batccoy,1,8) <> '23232'"  \
--hive-import \
--hive-table rs_tklaissdb.rtrnpf_csv \
--num-mappers 1 \
--target-dir '/user/hive/csv/RTRNPF_CSV' \
--delete-target-dir \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--hive-drop-import-delims

sqoop参数解释:

  • –connect :数据库连接串 jdbc:db2://5.19.6.108:50000/tklodsdb

  • –username:数据库用户名

  • –password:数据库用户密码

  • –query:SQL语句

  • –map-column-java:数据库字段在生成的java文件中会映射为各种属性,且默认的数据类型与数据库类型保持对应,比如数据库中某字段的类型为bigint,则在Java文件中的数据类型为long型,通过这个属性,可以改变数据库字段在java中映射的数据类型,格式如:–map-column-java
    content=String,sid=Integer

  • –class-name:设定生成的Java文件指定的名称

  • -outdir:生成的java文件存放路径

  • –target-dir:指定hdfs路径

  • –delete-target-dir:如果hdfs目录存在会把目录删除

  • –fields-terminated-by:设定每个字段是以什么符号作为结束的,默认是逗号,也可以改为其它符号,如’|',示例如:–fields-terminated-by ‘|’

  • –hive-drop-import-delims:在导入数据到hive中时,去掉数据中\n,\r和\01这样的字符

  • –input-null-string :可选参数,如果没有指定,则字符串null将被使用

  • –null-string:为字符串列的null指定值,例如:–null-string ‘\\N’,null表示为 ‘\\N’,否则为null

  • –null-non-string:为非字符串列的null指定值,例如:–null-string ‘\\N’,null表示为 ‘\\N’,否则为null

  • -m:表明需要使用几个map任务并发执行,默认4个,最好不要将数字设置为高于集群的节点数

  • –as-parquetfile:保存为parquet格式文件

  • -split-by : 表的列名,一般后面跟主键id

  • -columns ‘name’ #指定导入的列

使用过程中也碰到一些问题:
例如:
–query “select trim(glsign) as name,substr(batccoy,1,8) as batccoy from EPLAT.contract_csc where $CONDITIONS limit 10”
hive表字段 name string,batccoy string
本人测试了下是报错,不能导入hive的。有知道的大佬,还望告知,拜谢。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值