一、前期准备
1.保证你的电脑上有jdk且正确配置环境变量
2.已安装kettle(data-integration)且能正常使用
3.kettle中已建立好MySQL数据库连接
4.虚拟机hdfs已开启
二、kettle hdfs的相关配置
新建转换,在Hadoop cluster中add一个驱动文件
驱动文件在如下目录(添加后需要重启kettle)
在Hadoop cluster中new一个cluster
配置如下:
至此,我们的cluster配置成功!
三、新建mysql2hdfs转换
配置mysql表输入(不再赘述)
配置Hadoop file output
保存转换并执行:
没有报错,我们去hdfs上查看一下表数据是否抽取成功
至此,我们完成了kettle mysql表数据抽取到hdfs上!!!!!!!!!!!!
其中可能会出现的错误,提供参考: