kettle学习


ETL(Extract-Transform-Load)是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。
Kettle的几个子程序
Spoon.bat: 图形界面方式启动作业和转换设计器(GUI)。
Pan.bat: 任务执行器,命令行方式执行JOB(转换)。
Kitchen.bat:任务执行器,命令行方式执行transformation
VPL(可视化编程语言)
输入:抽取数据、生成数据

1、值映射

值映射就将字段里的一个值映射成另一个值
例如:将性别男 : 1,女:0
映射成:男:male ,女:female

2、唯一行(哈希值)

删除数据流唯一的行。
比排序记录、去除重复记录的效率会更高。

3、替换null值

null值不好进行数据分析

4、switch-case

让数据流从一路到多路

5、过滤记录

数据从一路到两路

6、HTTP client

使用GET方式请求,获取返回的页面内容

7、数据库查询

左连接

<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值