ETL工具_Kettle_转换

0 参考列表

大数据ETL开发之图解Kettle工具入门到精通(附上kettle安装包)icon-default.png?t=O83Ahttps://blog.csdn.net/yuan2019035055/article/details/120409547

1 输入控件

        用来抽取数据或者生成数据.

Excel输入

        设置文件->选择sheet->解析字段

生成记录

 GET data from XML

        解析XML:获取XML源->解析XML节点->定义字段映射关系

表输入

        创建数据库链接->使用表输入控件

2 输出控件

        用来存储数据.

Excel 输出

        设置文件输出信息->配置字段映射

SQL文件输出

表输出

        设置数据库连接、目标表->配置字段映射

插入/更新

3 转换控件

        用来做数据转换和数据清洗.

唯一行(哈希值)

        给每一行的数据建立哈希值,通过哈希值来比较数据是否重复

拆分字段

        把字段按照分隔符拆分成两个或多个字段.字段拆分后,原字段就会从数据流中消失.

列拆分为多行

        把指定字段按指定分隔符进行拆分为多行,然后其它字段直接复制.

行扁平化

        把同一组的多行数据合并成为一行,要求:

        ①使用之前需要对数据进行排序;

        ②每个分组的数据条数要保证一致,否则数据会有错乱.

列转行

        如果数据一列有相同的值,按照指定的字段,将其中一列的字段内容变成不同的列,然后把多行数据转换为一行数据.必须先按照分组字段进行排序.

        

        ①关键字段:从数据内容变成列名的字段

        ②分组字段:列转行,转变以后的分组字段

        ③目标字段:增加的列的列名字段

        ④数据字段:目标字段的数据字段

        ⑤关键字值:数据字段查询时的关键字,也可以理解为key

        ⑥类型:要给目标字段设置合适的类型,否则会报错

行转列

        把数据字段的字段名转换为一列,把数据行变为数据列.必须先按照分组字段进行排序.

        ①Key字段:行转列,生成的列名字段名

        ②字段名称:原本数据流中的字段名

        ③Key值:Key字段的值,这个是自己自定义的,一般都跟前面的字段名称一样

        ④Value字段:对应的Key值的数据列的列名

4 流程控件

        控制数据流程和数据流向.

Switch/case

        利用某一个字段的数据的不同的值,让数据流从一路到多路.

        ①选择需要判断的字段

        ②选择判断字段的值的类型

        ③填写分类数据的判断条件和目标步骤

过滤记录

        自定义输入一个判断条件,然后将数据流中的数据一路分为两路

空操作

        作为数据流的终点.

中止

        中止是数据流的终点,如果有数据流到此控件处,整个转换程序将中止,并且在控制台输出报错信息.此控件一般用来校验数据,或者调试程序.

5 其它控件

记录集连接

        可以对两个步骤中的数据流进行连接,连接前需要对两个表关联的字段排序.

分组

        类似group by,分组前需要排序.

执行SQL脚本

        连接数据库.执行SQL语句.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值