Sqoop导出

最新推荐文章于 2024-05-17 00:56:35 发布

散_步

最新推荐文章于 2024-05-17 00:56:35 发布

阅读量342

点赞数

分类专栏： sqoop

本文链接：https://blog.csdn.net/zhumengguang/article/details/108210187

版权

sqoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Sqoop导出

将数据从Hadoop生态体系导出到RDBMS数据库导出前，目标表必须存在于目标数据库中。

export有三种模式：

默认操作是从将文件中的数据使用INSERT语句插入到表中。

更新模式：Sqoop将生成UPDATE替换数据库中现有记录的语句。

调用模式：Sqoop将为每条记录创建一个存储过程调用。

以下是export命令语法：

$ sqoop export (generic-args) (export-args)

1.默认模式导出HDFS数据到mysql：

默认情况下，sqoop export将每行输入记录转换成一条INSERT语句，添加到目标数据库表中。如果数据库中的表具有约束条件（例如，其值必须唯一的主键列）并且已有数据存在，则必须注意避免插入违反这些约束条件的记录。如果INSERT语句失败，导出过程将失败。此模式主要用于将记录导出到可以接收这些结果的空表中。通常用于全表数据导出。

导出时可以是将Hive表中的全部记录或者HDFS数据（可以是全部字段也可以部分字段）导出到Mysql目标表。

准备HDFS数据

在HDFS文件系统中“/emp/”目录的下创建一个文件emp_data.txt：

1201,gopal,manager,50000,TP

1202,manisha,preader,50000,TP

1203,kalil,php dev,30000,AC

1204,prasanth,php dev,30000,AC

1205,kranthi,admin,20000,TP

1206,satishp,grpdes,20000,GR

手动创建mysql中的目标表：

mysql> USE userdb;

mysql> CREATE TABLE employee (

   id INT NOT NULL PRIMARY KEY,

   name VARCHAR(20),

   deg VARCHAR(20),

   salary INT,

   dept VARCHAR(10));

然后执行导出命令
bin/sqoop export \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password 123456 \
--table employee1 \
--columns id,name,deg,salary,dept \
--export-dir /emp_data/

bin/sqoop export \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password 123456 \
--table employee1 \
--export-dir /emp_data/

----------------------------------------------------------

相关配置参数：

--input-fields-terminated-by '\t'

指定文件中的分隔符

--columns

选择列并控制它们的排序。当导出数据文件和目标表字段列顺序完全一致的时候可以不写。否则以逗号为间隔选择和排列各个列。没有被包含在–columns后面列名或字段要么具备默认值，要么就允许插入空值。否则数据库会拒绝接受sqoop导出的数据，导致Sqoop作业失败

--export-dir 导出目录，在执行导出的时候，必须指定这个参数，同时需要具备--table或--call参数两者之一，--table是指的导出数据库当中对应的表，

--call是指的某个存储过程。

--input-null-string --input-null-non-string

如果没有指定第一个参数，对于字符串类型的列来说，“NULL”这个字符串就回被翻译成空值，如果没有使用第二个参数，无论是“NULL”字符串还是说空字符串也好，对于非字符串类型的字段来说，这两个类型的空串都会被翻译成空值。比如：

--input-null-string "\\N" --input-null-non-string "\\N"

更新导出（updateonly模式）：

-- update-key，更新标识，即根据某个字段进行更新，例如id，可以指定多个更新标识的字段，多个字段之间用逗号分隔。

-- updatemod，指定updateonly（默认模式），仅仅更新已存在的数据记录，不会插入新纪录。

在HDFS文件系统中“/updateonly_1/”目录的下创建一个文件updateonly_1.txt：
1201,gopal,manager,50000
1202,manisha,preader,50000
1203,kalil,php dev,30000

手动创建mysql中的目标表
mysql> USE userdb;
mysql> CREATE TABLE updateonly (
id INT NOT NULL PRIMARY KEY,
name VARCHAR(20),
deg VARCHAR(20),
salary INT);

先执行全部导出操作：
bin/sqoop export \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password 123456 \
--table updateonly \
--export-dir /updateonly_1/

新增一个文件updateonly_2.txt：修改了前三条数据并且新增了一条记录
1201,gopal,manager,1212
1202,manisha,preader,1313
1203,kalil,php dev,1414
1204,allen,java,1515

123456 fs -put updateonly_2.txt /updateonly_2

执行更新导出：
bin/sqoop export \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password 123456 \
--table updateonly \
--export-dir /updateonly_2/ \
--update-key id \
--update-mode updateonly

----------------------------------------------------------

更新导出（allowinsert模式）：

-- update-key，更新标识，即根据某个字段进行更新，例如id，可以指定多个更新标识的字段，多个字段之间用逗号分隔。

-- updatemod，指定allowinsert，更新已存在的数据记录，同时插入新纪录。实质上是一个insert & update的操作。

更新导出（allowinsert模式）

在HDFS “/allowinsert_1/”目录的下创建一个文件allowinsert_1.txt：
1201,gopal,manager,50000
1202,manisha,preader,50000
1203,kalil,php dev,30000

手动创建mysql中的目标表
mysql> USE userdb;
mysql> CREATE TABLE allowinsert (
id INT NOT NULL PRIMARY KEY,
name VARCHAR(20),
deg VARCHAR(20),
salary INT);

先执行全部导出操作
bin/sqoop export \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password 123456 \
--table allowinsert \
--export-dir /allowinsert_1/

allowinsert_2.txt。修改了前三条数据并且新增了一条记录。上传至/ allowinsert_2/目录下：
1201,gopal,manager,1212
1202,manisha,preader,1313
1203,kalil,php dev,1414
1204,allen,java,1515

执行更新导出
bin/sqoop export \
--connect jdbc:mysql://node-1:3306/userdb \
--username root --password 123456 \
--table allowinsert \
--export-dir /allowinsert_2/ \
--update-key id \
--update-mode allowinsert

Sqoop job作业：

job 语法：

$ sqoop job (generic-args) (job-args)

   [-- [subtool-name] (subtool-args)]

$ sqoop-job (generic-args) (job-args)

   [-- [subtool-name] (subtool-args)]

创建job：

在这里，我们创建一个名为job1，这可以从RDBMS表的数据导入到HDFS作业。

下面的命令用于创建一个从DB数据库的emp表导入到HDFS文件的作业。

bin/sqoop job --create job1 -- import --connect jdbc:mysql://node-1:3306/userdb \

--username root \

--password 123456 \

--target-dir /sqoopresult333 \

--table emp --m 1

注意import前要有空格

验证job：

‘--list’ 参数是用来验证保存的作业。下面的命令用来验证保存Sqoop作业的列表。

bin/sqoop job --list

检查job

‘--show’ 参数用于检查或验证特定的工作，及其详细信息。以下命令和样本输出用来验证一个名为job1的作业：

bin/sqoop job --show job1

执行job：

## 执行作业 (--exec)

**‘--exec’** 选项用于执行保存的作业。下面的命令用于执行保存的作业称为myjob。

```
bin/sqoop job --exec myjob

sqoop需要输入mysql密码

```

它会显示下面的输出。

```
10/08/19 13:08:45 INFO tool.CodeGenTool: Beginning code generation
...
```

免密执行job：

sqoop在创建job时，使用--password-file参数，可以避免输入mysql密码，如果使用--password将出现警告，并且每次都要手动输入密码才能执行job，sqoop规定密码文件必须存放在HDFS上，并且权限必须是400。

### job的免密输入

----------------------------------

sqoop在创建job时，使用--password-file参数，可以避免输入mysql密码，如果使用--password将出现警告，并且每次都要手动输入密码才能执行job，**sqoop规定密码文件必须存放在HDFS上，并且权限必须是400**。

```
echo -n "123456" > itcastmysql.pwd
hadoop fs -mkdir -p /input/sqoop/pwd/
hadoop fs -put itcastmysql.pwd /input/sqoop/pwd/
hadoop fs -chmod 400 /input/sqoop/pwd/itcastmysql.pwd
```

##### 检查sqoop的sqoop-site.xml是否存在如下配置：

```
<property>
<name>sqoop.metastore.client.record.password</name>
<value>true</value>
<description>If true, allow saved passwords in the metastore.
</description>
</property>
```

- ##### 创建sqoop job

在创建job时，使用--password-file参数

```
bin/sqoop job --create itcastjob2 -- import --connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password-file /input/sqoop/pwd/itcastmysql.pwd \
--target-dir /sqoopresult666 \
--table emp --m 1

```

- ##### 执行job

通过命令

```
sqoop job -exec itcastjob1

散_步

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Sqoop导出

Sqoop导出将数据从Hadoop生态体系导出到RDBMS数据库导出前，目标表必须存在于目标数据库中。export有三种模式：默认操作是从将文件中的数据使用INSERT语句插入到表中。更新模式：Sqoop将生成UPDATE替换数据库中现有记录的语句。调用模式：Sqoop将为每条记录创建一个存储过程调用。以下是export命令语法：$ sqoop export (generic-args) (export-args)1.默认模式导出HDFS数据到mysql：...
复制链接

扫一扫

专栏目录