自学Sqoop

Sqoop
(作者:zj)

版本:V1.1
第1章 Sqoop简介
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
Sqoop2的最新版本是1.99.7。请注意,2与1不兼容,且特征不完整,它并不打算用于生产部署。
第2章 Sqoop原理
将导入或导出命令翻译成mapreduce程序来实现。
在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。
第3章 Sqoop安装
安装Sqoop的前提是已经具备Java和Hadoop的环境。
3.1 下载并解压

  1. 下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/
  2. 上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中
  3. 解压sqoop安装包到指定目录,如:
    $ tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/
    3.2 修改配置文件
    Sqoop的配置文件与大多数大数据框架类似,在sqoop根目录下的conf目录中。
  4. 重命名配置文件
    $ mv sqoop-env-template.sh sqoop-env.sh
  5. 修改配置文件
    sqoop-env.sh
    export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2
    export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2
    export HIVE_HOME=/opt/module/hive
    export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10
    export ZOOCFGDIR=/opt/module/zookeeper-3.4.10/conf
    export HBASE_HOME=/opt/module/hbase-1.3.1
    3.3 拷贝JDBC驱动
    拷贝jdbc驱动到sqoop的lib目录下,如:
    $ cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/
    3.4 验证Sqoop
    我们可以通过某一个command来验证sqoop配置是否正确:
    $ bin/sqoop help
    出现一些Warning警告(警告信息已省略),并伴随着帮助命令的输出:
    Available commands:
    codegen Generate code to interact with database records
    create-hive-table Import a table definition into Hive
    eval Evaluate a SQL statement and display the results
    export Export an HDFS directory to a database table
    help List available commands
    import Import a table from a database to HDFS
    import-all-tables Import tables from a database to HDFS
    import-mainframe Import datasets from a mainframe server to HDFS
    job Work with saved jobs
    list-databases List available databases on a server
    list-tables List available tables in a database
    merge Merge results of incremental imports
    metastore Run a standalone Sqoop metastore
    version Display version information
    3.5 测试Sqoop是否能够成功连接数据库
    $ bin/sqoop list-databases --connect jdbc:mysql://hadoop102:3306/ --username root --password 000000
    出现如下输出:
    information_schema
    metastore
    mysql
    oozie
    performance_schema
    第4章 Sqoop的简单使用案例
    4.1 导入数据
    在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。
    4.1.1 RDBMS到HDFS
  6. 确定Mysql服务开启正常
  7. 在Mysql中新建一张表并插入一些数据
    $ mysql -uroot -p000000
    mysql> create database company;
    mysql> create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));
    mysql> insert into company.staff(name, sex) values(‘Thomas’, ‘Male’);
    mysql> insert into company.staff(name, sex) values(‘Catalina’, ‘FeMale’);
  8. 导入数据
    (1)全部导入
    $ bin/sqoop import
    –connect jdbc:mysql://hadoop102:3306/company
    –username root
    –password 000000
    –table staff
    –target-dir /company
    –delete-target-dir
    –num-mappers 1
    –fields-terminated-by “\t”
    –split-by id
    (2)查询导入
    $ bin/sqoop import
    –connect jdbc:mysql://hadoop102:3306/company
    –username root
    –password 000000
    –target-dir /company
    –delete-target-dir
    –num-mappers 2
    –fields-terminated-by “\t”
    –query ‘select id,name from staff where id<=10 and KaTeX parse error: Undefined control sequence: \ at position 13: CONDITIONS' \̲ ̲--split-by id 提…CONDITIONS’ in WHERE clause.
    如果使用query,则需要指定target-dir和split-by,因为这时没有默认值。
    如果query后使用的是双引号,则$CONDITIONS前必须加转移符,防止shell识别为自己的变量。
    (3)导入指定列
    $ bin/sqoop import
    –connect jdbc:mysql://hadoop102:3306/company
    –username root
    –password 000000
    –target-dir /company
    –delete-target-dir
    –num-mappers 1
    –fields-terminated-by “\t”
    –columns id,sex
    –table staff
    提示:columns中如果涉及到多列,用逗号分隔,分隔时不要添加空格
    (4)使用sqoop关键字筛选查询导入数据
    $ bin/sqoop import
    –connect jdbc:mysql://hadoop102:3306/company
    –username root
    –password 000000
    –target-dir /company
    –delete-target-dir
    –num-mappers 1
    –fields-terminated-by “\t”
    –table staff
    –where “id=1”
    4.1.2 RDBMS到Hive
    $ bin/sqoop import
    –connect jdbc:mysql://hadoop102:3306/company
    –username root
    –password 000000
    –table staff
    –num-mappers 1
    –hive-import
    –fields-terminated-by “\t”
    –hive-overwrite
    –hive-table staff_hive
    提示:该过程分为两步,第一步将数据导入到HDFS,第二步将导入到HDFS的数据迁移到Hive仓库,第一步默认的临时目录是/user/atguigu/表名
    4.1.3 RDBMS到Hbase
    $ bin/sqoop import
    –connect jdbc:mysql://hadoop102:3306/company
    –username root
    –password 000000
    –table staff
    –columns “id,name,sex”
    –column-family “info”
    –hbase-create-table
    –hbase-row-key “id”
    –hbase-table “hbase_company”
    –num-mappers 1
    –split-by id
    提示:sqoop1.4.6只支持HBase1.0.1之前的版本的自动创建HBase表的功能
    解决方案:手动创建HBase表
    hbase> create ‘hbase_company’,‘info’
    (5) 在HBase中scan这张表得到如下内容
    hbase> scan ‘hbase_company’
    4.2、导出数据
    在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向非大数据集群(RDBMS)中传输数据,叫做:导出,即使用export关键字。
    4.2.1 HIVE/HDFS到RDBMS
    $ bin/sqoop export
    –connect jdbc:mysql://hadoop102:3306/company
    –username root
    –password 000000
    –table staff
    –num-mappers 1
    –export-dir /user/hive/warehouse/staff_hive
    –input-fields-terminated-by “\t”
    提示:Mysql中如果表不存在,不会自动创建
    4.3 脚本打包
    使用opt格式的文件打包sqoop命令,然后执行
  9. 创建一个.opt文件
    $ mkdir opt
    $ touch opt/job_HDFS2RDBMS.opt
  10. 编写sqoop脚本
    $ vi opt/job_HDFS2RDBMS.opt

export
–connect
jdbc:mysql://hadoop102:3306/company
–username
root
–password
000000
–table
staff
–num-mappers
1
–export-dir
/user/hive/warehouse/staff_hive
–input-fields-terminated-by
“\t”
3) 执行该脚本
$ bin/sqoop --options-file opt/job_HDFS2RDBMS.opt

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值