0 参考列表
大数据ETL开发之图解Kettle工具入门到精通(附上kettle安装包)https://blog.csdn.net/yuan2019035055/article/details/120409547
1 输入控件
用来抽取数据或者生成数据.
Excel输入
设置文件->选择sheet->解析字段
生成记录
GET data from XML
解析XML:获取XML源->解析XML节点->定义字段映射关系
表输入
创建数据库链接->使用表输入控件
2 输出控件
用来存储数据.
Excel 输出
设置文件输出信息->配置字段映射
SQL文件输出
表输出
设置数据库连接、目标表->配置字段映射
插入/更新
3 转换控件
用来做数据转换和数据清洗.
唯一行(哈希值)
给每一行的数据建立哈希值,通过哈希值来比较数据是否重复
拆分字段
把字段按照分隔符拆分成两个或多个字段.字段拆分后,原字段就会从数据流中消失.
列拆分为多行
把指定字段按指定分隔符进行拆分为多行,然后其它字段直接复制.
行扁平化
把同一组的多行数据合并成为一行,要求:
①使用之前需要对数据进行排序;
②每个分组的数据条数要保证一致,否则数据会有错乱.
列转行
如果数据一列有相同的值,按照指定的字段,将其中一列的字段内容变成不同的列,然后把多行数据转换为一行数据.必须先按照分组字段进行排序.
①关键字段:从数据内容变成列名的字段
②分组字段:列转行,转变以后的分组字段
③目标字段:增加的列的列名字段
④数据字段:目标字段的数据字段
⑤关键字值:数据字段查询时的关键字,也可以理解为key
⑥类型:要给目标字段设置合适的类型,否则会报错
行转列
把数据字段的字段名转换为一列,把数据行变为数据列.必须先按照分组字段进行排序.
①Key字段:行转列,生成的列名字段名
②字段名称:原本数据流中的字段名
③Key值:Key字段的值,这个是自己自定义的,一般都跟前面的字段名称一样
④Value字段:对应的Key值的数据列的列名
4 流程控件
控制数据流程和数据流向.
Switch/case
利用某一个字段的数据的不同的值,让数据流从一路到多路.
①选择需要判断的字段
②选择判断字段的值的类型
③填写分类数据的判断条件和目标步骤
过滤记录
自定义输入一个判断条件,然后将数据流中的数据一路分为两路
空操作
作为数据流的终点.
中止
中止是数据流的终点,如果有数据流到此控件处,整个转换程序将中止,并且在控制台输出报错信息.此控件一般用来校验数据,或者调试程序.
5 其它控件
记录集连接
可以对两个步骤中的数据流进行连接,连接前需要对两个表关联的字段排序.
分组
类似group by,分组前需要排序.
执行SQL脚本
连接数据库.执行SQL语句.