大数据:Kettle导入数据到HDFS

作者曾用Kettle 7.1将SQL Server数据导入HDFS失败,近期找到解决方案。文章主要讲解导出数据到大数据系统的过程,包括HDFS数据源配置,解决配置文件和权限问题,创建测试数据库表,点击“运行转换”完成数据导入,最终实现传统关系型数据库导入HDFS。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

由于之前一直负责大数据项目,之前用Kettle(pdi)7.1把SQL Server的数据导入到HDFS系统中一直失败,期间由于其他项目中断,就没有继续往下研究,最近因为其他项目完结,继续在网上找了很多资料,最后找到解决方案,现在把这个过程整理一下。

软件版本
HDFSHadoop 2.7.3
Kettle(pdi)pdi-ce-8.3.0.0-371

一、HDFS配置

源数据端的配置这里就不多说了,感兴趣的朋友可以参见《工具:Kettle使用指南》,这里主要讲解如何导出数据到大数据系统中。

  1. 首先HDFS数据源配置
    在这里插入图片描述
    配置好之后,需要点击下边的“测试”按钮。有错误是正常的,主要有两类问题:配置文件和权限的问题。
    配置文件很简单就是把hadoop中的xml配置文件直接拷贝到相应的cdh6.1目录下面,权限文件也就是系统的访问权限,读写文件等,笔者这里用户目录权限问题还是没解决,但是不影响后面的数据导出。
    在这里插入图片描述
    在这里插入图片描述
  2. 数据导出
    因为是测试,所以笔者创建了一个简单的数据库表如下,总共10条数据,如下。
    在这里插入图片描述
    在Kettle上点击“运行转换”按钮,数据导入成功之后的日志如下:
    在这里插入图片描述
    在这里插入图片描述
    在hdfs目录下查看到的数据如下:
    在这里插入图片描述
    至此,传统关系型数据库导入大数据文件HDFS完毕。

【参考文献】
1.kettle 从数据库表将数据写入 hadoop hdfs
2.Kettle — 使用手册

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夏老师讲数

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值