1.sqoop介绍
Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。
Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。
Hadoop生态系统包括:HDFS、Hive、Hbase等
RDBMS体系包括:Mysql、Oracle、DB2等
Sqoop可以理解为:“SQL 到 Hadoop 和 Hadoop 到SQL”。
站在Apache立场看待数据流转问题,可以分为数据的导入导出:
Import:数据导入。RDBMS----->Hadoop
Export:数据导出。Hadoop---->RDBMS
2.sqoop安装
- 安装sqoop的前提是已经具备java和hadoop的环境。
- 最新稳定版: 1.4.6
1.将Sqoop压缩包解压到指定目录
2.进入到sqoop目录
cd /export/servers/sqoop-1.4.6.bin__hadoop-2.0.4-alpha
3.进入conf目录修改 配置文件
cp sqoop-env-template.sh sqoop-env.sh
vim sqoop-env.sh
export HADOOP_COMMON_HOME= /export/servers/hadoop-2.6.0-cdh5.14.0
export HADOOP_MAPRED_HOME= /export/servers/hadoop-2.6.0-cdh5.14.0
export HIVE_HOME= /export/servers/hive-1.1.0-cdh5.14.0
! 注意将注释打开,具体的Hadoop和hive版本要与你自己机器上的版本对应
4.加入mysql的jdbc驱动包
从hive的lib目录将jar拷到sqoop的lib下
cp /hive/lib/mysql-connector-java-5.1.32.jar /export/servers/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib
5.配置sqoop全局环境变量
cd /etc/profile.d
vim sqoop.sh
加入:
export SQOOP_HOME=/export/servers/sqoop-1.4.6.bin__hadoop-2.0.4-alpha
export PATH=$PATH:$SQOOP_HOME/bin
! 核查无误后执行
source sqoop.sh
验证启动准备工作:
1.开集群 2. 打开hive的元数据库mysql 3.执行以下命令
sqoop list-databases --connect jdbc:mysql://localhost:3306/ --username root --password 123456;
本命令会列出所有mysql的数据库。
到这里,整个Sqoop安装工作完成。
在安装过程中如遇到问题或错误请点击下方链接查看具体解决办法!