大数据技术Talend输出Mysql数据到HDFS

尚硅谷铁粉

于 2022-04-19 14:27:52 发布

阅读量287

点赞数

分类专栏：大数据文章标签： hdfs mysql

原文链接：http://www.atguigu.com

版权

大数据专栏收录该内容

104 篇文章 11 订阅

订阅专栏

本文档详细介绍了如何在Windows环境下配置Talend与Hadoop集群的连接，包括修改hosts文件、创建Hadoop集群配置、验证连接，并展示了从MySQL数据库将数据上传至HDFS的步骤，涉及HDFS和Hive的连接配置以及数据迁移作业的创建与执行。

摘要由CSDN通过智能技术生成

1. 配置talend和大数据集群的连接

1) 修改Windows本地hosts文件，添加以下内容

192.168.1.100 hadoop100

192.168.1.101 hadoop101

192.168.1.102 hadoop102

192.168.1.103 hadoop103

192.168.1.104 hadoop104

2) 找到“元数据”下面HadoopCluster右键单击，选择 “create Hadoop cluster”

3) 本案例基于apache原生hadoop2.7.2版本大数据环境测试，这里选择Amazon EMR, 版本选择EMR5.0.0（Apache2.7.2），剩下的按照自己的大数据集群配置其他信息。

4) 填写完配置信息以后，点击下面的检查服务，检查服务过程中会下载额外的第三方依赖插件，点击全部接受下载，直至Namenode进度条为100%全绿，说明hadoop集群配置正确

5) Hadoop集群连接成功之后，可以看到Hadoop Cluster下会生成一个myhadoop0.1的组件，然后右键点击myhadoop0.1选择create HDFS

6) 在弹出的HDFS Connection中填写名称，目的，描述，然后点击下一步，填写对应的配置信息，直至点击check按钮，出现成功连接的提示信息

7) HDFS连接创建好后，右键点击myhadoop0.1选择create Hive，在弹出的hive数据库连接框里依次填写hive的配置信息，如图所示

8) 填写完配置信息以后，点击测试连接按钮，直至显示hive连接成功的提示，说明hive链接创建成功，注意在测试连接前，一定要先在服务器上开启hiveserver2的服务，否则会报错。

2. MySQL中表的数据上传到hdfs

1) 在demo文件夹下新建作业mysql_hdfs2

2) 配置mysql连接，我们既可以在使用组件时进行配置，也可以先提前在元数据中配置好各种数据库连接，然后直接拖到工作区使用。配置步骤如下

在元数据中新建mysql 连接

填写mysql连接信息

如下图，已经连接成功。

3) 开始拖拽组件，把mysql连接拖放到设计工作区，选择组件 “tDBInput(MySQL)”

4) 点击工作区mysql的图标，选择 “组件”，表填写MySQL中刚才写入表valid_movie，查询语句补充完整，“select * from valid_movie”，点击“Guess schema”

之后会出现这张表的字段和类型。你可以修改字段名/选择保留的字段等。

5) 在右侧搜索tLogRow，这个组件相当于输出，可以显示我们的数据

6) 左侧找到刚刚添加的hdfs连接，拖放到设计工作区，在弹出的组件选择框中选择HDFSOutPut组件，然后设置hdfs 存储文件的位置，文件名称，文件类型（序列化或者文本文件），动作（重写/追加）

7) 把三个组件进行连接

8) 运行作业，valid_movie表内容打印在控制台上

HDFS也有了表中的数据，表示mysql-hdfs 数据转移成功。

尚硅谷铁粉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据技术Talend输出Mysql数据到HDFS

1. 配置talend和大数据集群的连接1) 修改Windows本地hosts文件，添加以下内容192.168.1.100 hadoop100192.168.1.101 hadoop101192.168.1.102 hadoop102192.168.1.103 hadoop103192.168.1.104 hadoop1042) 找到“元数据”下面HadoopCluster右键单击，选择 “create Hadoop cluster”3) 本案例基于apache原生had
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。