SQOOP数据导入

最新推荐文章于 2025-02-13 10:11:50 发布

zlEven

最新推荐文章于 2025-02-13 10:11:50 发布

阅读量1.7w

点赞数 2

分类专栏：大数据数据库文章标签： SQOOP

本文链接：https://blog.csdn.net/zleven/article/details/53781111

版权

本文详细介绍了如何使用SQOOP工具进行数据迁移，从Oracle数据库到Hadoop的HDFS、Hive和HBase。内容涵盖了SQOOP的导入命令和参数、全量导入、导入到不同组件的步骤，以及增量导入和定时增量导入的配置方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sqoop是一个用于在Hadoop和关系型数据库（Oracle，Mysql...）间数据传递的开源工具。下面以Oracle为例，介绍使用sqoop将数据从Oracle导入到Hadoop中（HDFS、Hive和HBase）。

1、导入命令及参数介绍

命令格式

$ sqoop import (generic-args) (import-args)
$ sqoop-import (generic-args) (import-args)

generic参数必须放在import参数之前，generic参数是与hadoop相关的参数，这里不做介绍。本文主要介绍import参数，import参数没有顺序要求，下面我们对常用的import参数进行介绍。

（1）通用参数：

import的通用参数还包括：--connection-manager ，--driver ，--hadoop-mapred-home ，--help ，--connection-param-file，--relaxed-isolation，可以在sqoop的官方文档中查看参数说明。

（2）控制参数

参数名	参数说明
--append	将数据追加到一个已经存在于HDFS中的数据集中
--target-dir <dir>	导入到HDFS目标目录
--table <table-name>	要导入的表的表名
--columns <col,col,col…>	要导入的列名，多个列名与逗号分隔
-e,--query <statement>	从查询语句导入，'select * from ...'
--where <where clause>	导入时where子句
--split-by <column-name>	导入时进行任务分割的字段，不能和--autoreset-to-one-mapper参数同时使用
--autoreset-to-one-mapper	如果导入表没有主键或者没有使用split-by指定分割字段时，使用1个mapper进行数据导入，不能和--split-by参数同时使用
-m,--num-mappers <n>	使用n个并行任务导入数据
--inline-lob-limit <n>	内嵌LOB的最大长度(byte)
-z,--compress