Sqoop 是一个开源工具,主要用于在Hadoop和传统的数据库(Mysql, Oracle,等)进行数据传递,可以将一个关系型数据库中的数据导入Hadoop 的HDFS中,也可以将HDFS中的数据导出到关系型数据库中。
1. 目前主要有sqoop1 和sqoop2两个版本,两者架构如下图所示:
a. sqoop1 架构: b. sqoop2 架构
很明显,sqoop2中引入了sqoop server集中化管理connector,以及rest api,web,CLI多种交互方式,并引入权限安全机制,较sqoop1有较大改变。他的配置过程及配置文件较sqoop1也有较大不同。
2. 安装和配置过程
tar zxvf sqoop-1.99.7-bin-hadoop200.tar.gz
mv sqoop-1.99.7-bin-hadoop200 sqoop
mv sqoop /home/hadoop/
cd /home/hadoop/sqoop && mkdir logs
2.1 sqoop 环境变量设置
.bashrc 中增加以下变量声明:
export SQOOP_HOME&