转换
转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作。
一个简单的转换如下图所示:
由上图可看出一个转换包括步骤、跳、注释以及数据行,具体介绍如下:
作业
一个作业包含一个或者多个作业项,并且这些作业项都以某种顺序进行执行的。作业执行的顺序由作业项之间的跳(Job Hop)和每个作业项的执行结果决定。
一个简单的作业例子如下:
作业包含内容简图如下:
作业项:
- 作业项是作业的基本构成部分,也可称之为控件。作业项类似于转换中的步骤,也可以使用图标的方式进行图形化展示;
- 步骤的名字是唯一的,而作业项可以进行拷贝,也就是说可以将一个作业项放在多个不同的位置,并且这些拷贝的作业项中的信息都是相同的,若修改了其中一个作业项,那么其他拷贝的作业项也都会随之修改;
- 步骤之间的数据行是以数据流的方式传递的,而作业项之间可以传递一个结果对象,并且结果对象里包含了数据行,但数据行不是以流的方式传递的,而是等到一个作业项执行完成后,再传递给下一个作业项;
- 默认情况下,所有的步骤都是以并行的方式执行,而所有的作业项目都是串行方式执行的。
作业跳:
- 作业跳是作业项之间的连接线,它定义了作业的执行路径。作业里每个作业项的不同运行结果决定了作业的不同执行路径;
- 无条件执行:不论上一个作业项执行成功还是失败,下一个作业项都会执行;
- 当运行结果为真时,则执行:当上一个作业项的执行结果为真时,执行下一个作业项。通常在需要无错误执行的情况下使用;
- 当运行结果为假时,则执行:当上一个作业项的执行结果为假或者没有成功执行时,执行下一个作业项。
多路径和回溯:
- Kette使用一种回溯算法来执行作业里的所有作业项,并且作业项的执行结果(真/假)决定执行的路径;
- 回溯算法(如下图):假设执行到一条路径的某个节点时,依次执行这个节点的所有子路径,直到没有可执行的子路径,就返回该节点的上一个节点,如此反复。
作业项结果:
- 作业项的执行结果不仅决定了作业的执行路径,还向下一个作业项传递了一个结果对象;
- 结果对象包含一组数据行、一组文件名、行数(读、写、输入、输出、更新、删除、拒绝的行数)、错误数(转换中的错误数)以及脚本作业项的退出状态。
实例(发送邮件)
通过使用Kettle工具,创建一个作业send_email,并添加Start控件、“发送邮件”控件、“成功”控件以及作业跳连接线,示意图如下(控件上方的√标识执行成功):
执行过程发送邮件容易报错,若报错应当注意检查以下几点(亲测有效):
- 检查电脑JDK环境;
- 确定SMTP以开启
有关SMTP知识的补充:
- SMTP知识SMTP是一种提供可靠且有效的电子邮件传输的协议。SMTP是建立在FTP文件传输服务上的一种邮件服务,主要用于系统之间的邮件信息传递,并提供有关来信的通知。
- 开启SMTP方法:若使用QQ邮箱,则及你如QQ邮箱更改,(找到如下界面)开启IMAP/SMTP服务,开启后点右侧蓝字可得到一些指引。
- 服务器一栏的密码是QQ邮箱中的授权码,不是QQ邮箱密码(如下图)。