ETL中Kettle上连接虚拟机HDFS,同时连接虚拟机MySQL,同步数据到HDSF

第一步替换文件如下图需替换4个文件:

在替换之前先打开plugin.properties进行赋值如下图:

先把目录下需要替换的文件进行删除如下图:

第二步把文件复制在目标目录下去第一个文件如下:

如下已经复制成功第一个:

接下来复制mapred-site.xml文件和yarn-site.xml文件如下图:

如图三个文件替换完成:

第三步:启动Hadoop集群,再启动kettle:

输入./spoon.sh启动kettle

找到BigData,把Hadoop File OutPut拖动出来

这里可以看出kettle启动成功

把Hadoop File OutPut拖动出来成功如下图:

第四步:配置Hadoop File OutPutHostname:HadoopMaster,Port:9000,配置如下图:

这里备注一点:在虚拟机中如果没有给虚拟机中的MySQL赋权,那么要在虚拟机中的MySQL中输入,MySQL的驱动安装在下面说明,如下指令:

GRANT ALL PRIVILEGES ON *.* TO 'root'@'HadoopMaster' IDENTIFIED BY 'your_password' WITH GRANT OPTION;这里your_password改为自己的密码
FLUSH PRIVILEGES;

这里可以得出与Hadoop连接成功:

这里我选择的是hdfs下的mydata,当转换运行成功后会生成一个mydata.txt文件,如下图配置:

第五步:表输入,把表输入拖进去:

表输入拖入完成后,去Linux中的MySQL中查看数据库如下图

接下来就要配置输入表,主机名是:HadoopMaster数据库:hive01,如下图:

点击测试表示数据库连接正确,这里如果报错,问题可能是存在kettle中没有MySQL的驱动,需要把MySQL的驱动放入到data-integration目录下lib目录中,然后重新启动:

这里是验证表输入的连接,选择预览即可看见hive01数据库中table01表的数据:

第六步:先保存转换,再启动转换,如下图可以看出启动成功,输入10,输出10,报错为0,说明转换成功:

接下来去到hdfs下查看是否生成mydata.txt文件,如图可以看到已经生成这个文件:

接下来打开mydata.txt文件,如图文件内容正确,说明实验成功,kettle连接HDFS成功,数据同步成功:

  • 9
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值