由于之前一直负责大数据项目,之前用Kettle(pdi)7.1把SQL Server的数据导入到HDFS系统中一直失败,期间由于其他项目中断,就没有继续往下研究,最近因为其他项目完结,继续在网上找了很多资料,最后找到解决方案,现在把这个过程整理一下。
软件 | 版本 |
---|---|
HDFS | Hadoop 2.7.3 |
Kettle(pdi) | pdi-ce-8.3.0.0-371 |
一、HDFS配置
源数据端的配置这里就不多说了,感兴趣的朋友可以参见《工具:Kettle使用指南》,这里主要讲解如何导出数据到大数据系统中。
- 首先HDFS数据源配置
配置好之后,需要点击下边的“测试”按钮。有错误是正常的,主要有两类问题:配置文件和权限的问题。
配置文件很简单就是把hadoop中的xml配置文件直接拷贝到相应的cdh6.1目录下面,权限文件也就是系统的访问权限,读写文件等,笔者这里用户目录权限问题还是没解决,但是不影响后面的数据导出。
- 数据导出
因为是测试,所以笔者创建了一个简单的数据库表如下,总共10条数据,如下。
在Kettle上点击“运行转换”按钮,数据导入成功之后的日志如下:
在hdfs目录下查看到的数据如下:
至此,传统关系型数据库导入大数据文件HDFS完毕。
【参考文献】
1.kettle 从数据库表将数据写入 hadoop hdfs
2.Kettle — 使用手册