大数据技术Talend输出Mysql数据到HDFS

1. 配置talend和大数据集群的连接

1) 修改Windows本地hosts文件,添加以下内容

192.168.1.100 hadoop100

192.168.1.101 hadoop101

192.168.1.102 hadoop102

192.168.1.103 hadoop103

192.168.1.104 hadoop104

2) 找到“元数据”下面HadoopCluster右键单击,选择 “create Hadoop cluster”

3) 本案例基于apache原生hadoop2.7.2版本大数据环境测试,这里选择Amazon EMR, 版本选择EMR5.0.0(Apache2.7.2),剩下的按照自己的大数据集群配置其他信息。

4) 填写完配置信息以后,点击下面的检查服务,检查服务过程中会下载额外的第三方依赖插件,点击全部接受下载,直至Namenode进度条为100%全绿,说明hadoop集群配置正确

5) Hadoop集群连接成功之后,可以看到Hadoop Cluster下会生成一个myhadoop0.1的组件,然后右键点击myhadoop0.1选择create HDFS

6) 在弹出的HDFS Connection中填写名称,目的,描述,然后点击下一步,填写对应的配置信息,直至点击check按钮,出现成功连接的提示信息

7) HDFS连接创建好后,右键点击myhadoop0.1选择create Hive,在弹出的hive数据库连接框里依次填写hive的配置信息,如图所示

8) 填写完配置信息以后,点击测试连接按钮,直至显示hive连接成功的提示,说明hive链接创建成功,注意在测试连接前,一定要先在服务器上开启hiveserver2的服务,否则会报错。

2. MySQL中表的数据上传到hdfs

1) 在demo文件夹下新建作业mysql_hdfs2

2) 配置mysql连接,我们既可以在使用组件时进行配置,也可以先提前在元数据中配置好各种数据库连接,然后直接拖到工作区使用。配置步骤如下

在元数据中新建mysql 连接

填写mysql连接信息

如下图,已经连接成功。

3) 开始拖拽组件,把mysql连接拖放到设计工作区,选择组件 “tDBInput(MySQL)”

4) 点击工作区mysql的图标,选择 “组件”,表填写MySQL中刚才写入表valid_movie,查询语句补充完整,“select * from valid_movie”,点击“Guess schema”

之后会出现这张表的字段和类型。你可以修改字段名/选择保留的字段等。

5) 在右侧搜索tLogRow,这个组件相当于输出,可以显示我们的数据

6) 左侧找到刚刚添加的hdfs连接,拖放到设计工作区,在弹出的组件选择框中选择HDFSOutPut组件,然后设置hdfs 存储文件的位置,文件名称,文件类型(序列化或者文本文件),动作(重写/追加)

7) 把三个组件进行连接

8) 运行作业,valid_movie表内容打印在控制台上

HDFS也有了表中的数据,表示mysql-hdfs 数据转移成功。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值