关于使用ETL工具Kettle的简单介绍(一)

好久没有来这里写东西了,这几天把这一年来使用ETL工具--Kettle的情况跟各位分享一下。接下来将这一年来实现的功能脚本粘上来跟各位分享一下吧。

今天说的是我设计的整个ETL架构,这个也是最主要的一块。

不知是否正确,如果不对还望各位牛人指正!就献丑了。。。

在说到具体之前,我个人认为要想设计好ETL架构必须处理好以下条件:

当源头发生数据的增删改时,后面的所有过程必须可以捕获到对应数据并进行对应操作;

当在任何一个环节中出错后,必须有对应的详细日志可以记录该段数据的详细情况。并且可以在不影响整个过程的运行下,对出错数据进行补数操作。

首先我们分开来讨论:
一、E---捕获增量

捕获增量有很多种方式,实时触发、时间戳、全量比较和对全量计算,这些方式需要根据不同的需求进行量身定做。

  • 实时触发可以理解为通过触发器的方式在发生变化的时候进行触发,这种方式是最快的方式,但是该种方式建议不使用,因为触发器对数据库的影响非常大。
  • 时间戳是定时通过一个时间戳字段来取增量,或者使用其他自增长字段也可以取代时间戳。
  • 全量比较则是将全量拿来进行比较,该种方式性能会有所影响。比如使用物化视图的方式就是采用了全量比较,但是Oracle的物化视图是经过优化处理的,所以会比较快。
  • 对全量计算就是不找增量,直接将数据全部计算,然后将结果全部加载。
二、T---数据转换

转换过程就是业务的核心。这里有多种情况需要考虑,一般有一对一、一对多和多对一的情况。

  • 一对多有两种情况:一个表的一条记录对应一个表的多条记录,也叫做横转纵(在Kettle中有这样的组件);一个表的一条记录对应多个表的多条记录。
  • 多对一也有两种情况:一个表的多条记录对应一个表的一条记录,也叫做纵转横(在Kettle中有这样的组件);多个表的多条记录对应一个表的一条记录。

上面两种情况可以设计不同的方案来处理。

三、L---加载数据

加载就是对增量数据进行转换的数据准确的加载到正式库中。加载到正式环境一般情况有两种方式:一种是Merge,另一种是先delete后Insert。在采用后者时,需要最好使delete和insert操作放到同一个事务中操作。但是可以看到在kettle实现的时候不可能将两个过程在一个事务中存在,所以需要采用其他的方式。后面会涉及到该部分。

                

                                                                 该图是个人一年工作的大致框架图

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值