一、启动Hadoop集群并连接测试
1.1 查看并启动Zookeeper服务
1.2 在主节点启动Hadoop集群
1.3 在备用节点启动ResourceManager
1.4 在主节点启动Hbase集群
1.5 分别在主节点、备用节点和数据节点用“jps”查看Jvav进程信息
1.7 启动MySQL
①启动管理节点
②启动数据节点
③启动SQL节点
1.7使用Sqoop测试与MySQL的连通
二、使用Sqoop
1、使用Sqoop导入MySQL数据到HDFS
使用指定的分隔符
导入指定条件的数据
导入指定查询语句的数据
2、使用Sqoop导出HDFS数据到MySQL
准备导出表
创建要导出文件的位置,并导出所有字段
创建要导出文件的位置,导出指定字段
创建要导出文件的位置,导出表时指定分隔符
批量导出
3、使用Sqoop导入MySQL数据到Hive
3.1 导入表的所有字段到Hive
(1)创建Hive表
4、将常用的Sqoop脚本定义成作业,方便其他人调用
首先启动sqoop,并查看Java进程信息
4.1创建数据库连接
4.2建立HDFS文件系统连接
4.3 在HDFS创建用于存放导出的数据文件的目录
4.4 创建数据传输事务
4.5 启动数据传输事务,并查看事务当前的运行进度
4.6 查看导出的数据文件列表和导出的数据信息
4.7通过访问http://192.168.10.111:8088/查看集群状态、日志信息等:
遇到错误及解决方法:
(1)测试与mysql互通性出现如下错误
原因:缺少相关的jar包,在sqoop的lib目录下加入所缺jar包(avro-1.8.1.jar),问题解决
(2)执行导入命令出错,原因:缺少common lang3的jar包,在sqoop的lib目录下加入所缺jar包,如下所示,问题解决
(3)数据从MySql导入Hive出错,原因:缺少hive相关的jar包,在sqoop的lib目录下加入所缺jar包(hive-common-2.1.1.jar),问题解决