入门
ETL
:Extract-Transform-Load
的缩写,即数据抽取、转换、装载的过程;常用的ETL
工具:Sqoop
,DataX
,Kettle
,Talend
等Kettle
(现在已经更名为PDI
,Pentaho Data Integration-Pentaho
数据集成)是一款国外开源的ETL
工具,纯java
编写,可以在Window
、Linux
、Unix
上运行,绿色无需安装,数据抽取高效稳定。Kettle
中文名称叫水壶,该项目的主程序员MATT
希望把各种数据放到一个壶里,然后以一种指定的格式流出。它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle
中有两种脚本文件,transformation
和job
,transformation
:完成针对数据的基础转换,job
:完成整个工作流的控制。
安装
- 安装
jdk
,版本建议1.8
及以上 - 下载
kettle
压缩包,因kettle
为绿色软件,解压缩到任意本地路径即可 - 双击
Spoon.bat
,启动图形化界面工具,就可以直接使用了
- 问题:双击之后一直没打开
- 解决:添加环境变量:
kettle_home:D:\Program Files\data-integration
(安装kettle路径)
快速体验
- 将
csv
文件用Kettle
转换成excel
文件
1)在Kettle
中新建一个转换,然后选择转换下面的csv文件输入
和Excel输出
控件
2)双击CSV文件输入文件
控件,在弹出的设置框里找到对应的csv
文件,然后点击下面的获取字段按钮,将我们需要的字段加载到kettle中
3)按住键盘SHIFT
键,并且点击鼠标左键将两个控件链接起来,链接时选择主输出步骤
4)双击Excel输出
控件,在弹出的设置框里设置文件输出路径和文件名称,然后点击上面的字段框,依次点击下面的获取字段和最小宽度,获取到输出字段。
5)点击左上角的启动按钮,在弹出的设置框里点击启动,执行该转换。
6)查看kettle
下方执行结果日志以及输出路径的Excel
文件内容