【面试】Sqoop导入HDFS

导入的规则

  在我们将业务数据从MySQL中导入至HDFS中是需要做ETL设计的,即我们可能只需要筛选出一部分的数据可能是几列的数据或者是其中几行的数据。 比如说在Gmall这张表当中包含了很多个不同的字段,其中有id、name、nickname、login_name等字段,那么如果我们需要的是id和login_name字段的话,我们就需要做出筛选。

# 筛选出列
--columns id, login_name
# 筛选出行
--where 'id >=1 and id <= 20'

   在MapReduce输出是,首先会检查输出路径是否存在,所以sqoop在将数据输出之前,会检查target-dir是否存在。设置如下命令,可以检测,如果该路径存在首先会先删除再创建

--delete-target-dir

  在MySQL中存储的数据都是结构化数据,每个不同的字段之间是通过分隔符,例如’\t’来划分的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值