配合官网文档看更好:http://sqoop.apache.org/docs/1.99.7/admin/Installation.html
一、环境描述
Apache Hadoop2.6.4
Sqoop1.99.7
Kali2 Linux 系统,基于Debian,Ubuntu也差不多。
MySQL server 5.5.49-0+deb8u1(Debian)
再提一下MySQL的JDBC驱动:直接上官网下的connection/J:mysql-connector-java-5.1.39-bin.jar,也就是5.1.39的版本
二、Sqoop2基本介绍
用于结构化数据系统(比如关系型数据库系统RDBMS)和Hadoop系统间的大量数据传输的一个工具,特别是Hadoop所使用的HDFS分布式文件系统。作为ASF下的一个开源项目,其一开始也只是一个小工具,当然现在也是,还附带一些库供客户端调用。Sqoop版本又分Sqoop1和Sqoop2,其中Sqoop1目前最高释出版本为1.4.6,Sqoop2最高释出版本为1.99.7,Sqoop1与Sqoop2相互间不兼容,而且Sqoop2目的并不是作为产品,主要是致力于开发。再者,其对Hadoop的支持版本有些特别要求,比如Hadoop1和Hadoop0.x还有Hadoop2.x的兼容性等。在下载时一般要注意其兼容的Hadoop版本(Sqoop官网上我没有看到相关具体的描述,只是通过下载的文件名辨别与Hadoop的兼容性)。
Sqoop进行数据转移时必须依赖于Hadoop的MapReduce作业,所以Hadoop必须在环境中存在,且能被Sqoop访问。
三、Sqoop2下载安装
选择sqoop2的1.99.7版本即可。我直接下的bin版本,这个版本已经编译好了,直接用。当然你也可以下源代码到本地编译安装,确保有Java环境,因为Sqoop用Java编写的。本文直接用的bin版本:sqoop-1.99.7-bin-hadoop200.tar.gz
2、解压安装包
tar -xzvf sqoop-1.99.7-bin-hadoop200.tar.gz
mv sqoop-1.99.7-bin-hadoop200 sqoop1.99.7
3、目录简单说明
bin:可执行脚本,一般使用sqoop都是通过这个目录中的工具调用,是一些shell或batch脚本。
conf:存放配置文件
docs:目前不清楚具体是什么,可能是帮助文档,不过一般使用sqoop不会用到。
server:里面只有一个lib目录,存了很多jar文件,是sqoop2 的server包。
shell:同理,sqoop2的shell包。
tools:同理,sqoop2的工具包。
4、安装
因为已经编译好了,所以安装过程是很简单的,只需要把整个目录放在一个自己喜欢的地方即可。