1、转换
转换是ETL解决方案中重要的组成部分之一,它主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。
实例:
步骤是转换里的基本组成部分,也可被称为控件。例如上图的表输入和文本文件输出。
跳是步骤之间带箭头的连接线,即数据的通道,用于连接两个步骤,实现将元数据从一个步骤传递到另一个步骤。
在kettle中所有步骤都是以并发方式执行的。
下面是创建一个转换的过程:
在SQLyog上建立表personal_b1,和personal_a
连接数据库
获取SQL查询语句
在我做这个转换的过程中我遇到的问题是,无法连接数据到我的数据库,最后我将老师给我的8.0.26得jar包放到了kettle下的lib文件夹下,解决了这个问题
2、作业
目前,大多数的ETL项目都需要完成各种各样的维护工作。例如,如何传送文件、验证数据库中的数据表是否存在等操作,这些操作都必须按照一定顺序完成,由于转换是以并行方式执行的,因此需要一个可以串行执行的作业来处理这些操作。
作业项是作业的基本构成部分,也可称之为控件。
作业跳是作业项之间的连接线,它定义了作业的执行路径。
作业里每个作业项的不同运行结果决定了作业的不同执行路径,具体如下:
1、无条件执行:上图蓝色箭头带锁的,不论上一个作业项执行成功还是失败,下一个作业项都会执行;
2、当运行结果为真时,则执行:绿色箭头,当上一个作业项的执行结果为真时,执行下一个作业项。通常在需要无错误执行的情况下使用;
3、当运行结果为假时,则执行:红色箭头,当上一个作业项的执行结果为假或者没有成功执行时,执行下一个作业项。
下面是创建一个作业的过程:
在QQ邮箱中开启相关权限
收件人收到邮件
摘自《数据清洗》黑马程序员