sqoop常见问题处理

事务

处理 由于线程的并发性,一个导入操作可能并不是原子性的。
会一次statement插入100条数据,然后每100 个statement提交一次,所以一次就会提交10000条数据。
如果tasks失败了(由于网络问题或者其它的问题), 这些tasks会尝试从它们开始导入数据的地方重新开始,会插入重复的记录。
这次写数据的时候,Sqoop不 提防这种潜在的问题。
Sqoop提供的一个解决办法就是使用中间表,参数为: --staging-table --clear-staging-table

字段 名称问题

sqoop 从 mysql 导入 hive 的字段名称问题 hive 中有些关键字限制,
因此有些字段名称在 mysql 中可用,但是到了 hive 就不 行。
部分不能在 hive 中使用的字段名称 order;sort;reduce;cast;directory

参数

处理 部分字段含有特殊字符时需要添加双引号,单双引号都有时,一般采用双引 号套单引号。

涉及的源表和目标表不一致,包括字段名称不一致,字段的数目不一致,数据的分隔符未指定等。查看mr任务的报错再判断是否是字段的问题。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值