ETL(Extract-Transform-Load)是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。
Kettle的几个子程序
Spoon.bat: 图形界面方式启动作业和转换设计器(GUI)。
Pan.bat: 任务执行器,命令行方式执行JOB(转换)。
Kitchen.bat:任务执行器,命令行方式执行transformation
VPL(可视化编程语言)
输入:抽取数据、生成数据
1、值映射
值映射就将字段里的一个值映射成另一个值
例如:将性别男 : 1,女:0
映射成:男:male ,女:female
2、唯一行(哈希值)
删除数据流唯一的行。
比排序记录、去除重复记录的效率会更高。
3、替换null值
null值不好进行数据分析
4、switch-case
让数据流从一路到多路
5、过滤记录
数据从一路到两路
6、HTTP client
使用GET方式请求,获取返回的页面内容
7、数据库查询
左连接