kettle学习–基础–01–介绍
1、介绍
- 是一款国外开源的ETL工具
- 纯java编写
- 可以在Window、Linux、Unix上运行。
- 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
- 数据抽取高效稳定
- Kettle 现在已经更名为PDI(Pentaho Data Integration)
1.1、ETL介绍
- ETL 是Extract-Transform-Load的缩写,
- 功能:数据抽取、数据转换、数据装载
1.2、Kettle中有两种脚本文件
- transformation:完成针对数据的基础转换
- job:完成整个工作流的控制。
1.3、Kettle可以被称为可视化编程。
- Kettle可以被归类为可视化编程语言(Visula Programming Languages,VPL),因为Kettle可以使用图形化的方式定义复杂的ETL程序和工作流。
- Kettle里的图就是转换和作业。
- 可视化编程一直是Kettle里的核心概念,它可以让你快速构建复杂的ETL作业和减低维护工作量。它通过隐藏很多技术细节,使IT领域更贴近于商务领域。
2、Kettle的结构。
2.1、Spoon
- Spoon是构建 ETL Jobs,Transformations 的工具
- Spoon以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或者集群。
2.2、Data Integration Server
- 是一个专用的ETL Server
- 主要功能如下
2.3、Enterprise Console。
- Enterprise Console(企业控制台)提供了一个小型的客户端
- 用于管理Pentaho Data Integration企业版的部署,包含以下功能
- 企业版本的证书管理
- 监控和控制远程Pentaho Data Integration服务器上的活动
- 分析已登记的作业和转换的动态绩效。
3、kettle的核心组件。
4、Kettle基本概念
4.1、概念模型
4.2、转换和作业
- 转换(Transformation)和作业(Job)是Spoon设计器的核心两个内容
- 这两块内容构建了整个Kettle工作流程的基础
4.2.1、转换(Transformation)
- 主要是针对数据的各种处理
- 一个转换里可以包含多个步骤(Step)
4.2.2、作业(Job)
- 相较于转换,是更加高级的操作。
- 一个作业里包括多个作业项(Job Entry)
- 一个作业项代表了一项工作,而转换是一种作业项,即作业里面可以包括多个转换
4.3、运行工具
Kettle里有不同的工具,用于ETL的不同阶段。主要工具如下:
- Spoon:图形化工具,用于快速设计和维护复杂的ETL工作流
- Kitchen:运行作业的命令行工具
- Pan:运行转换的命令行工具
- Carte:轻量级的(大概1MB)Web服务器,用来远程执行转换或作业,一个运行有Carte进程的机器可以作为从服务器,从服务器是Kettle集群的一部分
4.3.1、SPOON
- 是Kettle的集成开发环境(IDE)。
- 主要应用与开发、测试、调试阶段
- 基于SWT提供了图形化的用户接口,主要用于ETL的设计。
- 在Kettle安装目录下,有启动Spoon的脚本。如Windows下的Spoon.bat
4.3.2、Kitchen和Pan
- spoon主要应用与开发、测试、调试阶段,而开发完成后部署到生产环境中时,一般的运行方式都是使用命令的方式运行,这时就需要用到Kitchen和Pan
- Kitchen和Pan 是kettle的命令运行工具,在概念和用法上都非常相近,这两个命令的参数也基本是一样的,不同的是执行的对象不同
- Kitchen用于执行作业
- Pan用于执行转换
4.3.3、Carte
- Carte服务用于执行一个作业,就向Kitchen一样
- 和Kitchen不同的是,Carte是一个服务,一直在后台运行,而Kitchen只是运行一个作业就退出
- 当Carte在运行时,一直在某个端口监听HTTP请求。
- 远程机器客户端给Carte发出一个请求,在请求里包含了作业的定义。
- 当Carte接到了这样的请求后,它验证请求并执行请求里的作业。
- Carte支持其它几种类型的请求。这些请求用于获取Carte的执行进度、监控信息等
- Carte是Kettle集群中一个重要的构建快。集群可将单个工作或转换分成几部分,在Carte服务器的多个计算机上并行执行,因此可以分散工作负载
4.4、Kettle里面的 转换
- 转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。
- 转换包含一个或多个步骤(step),如读取文件、过滤数据行、数据清洗或将数据加载到数据库。
- 转换里的步骤通过跳(hop)来连接,跳定义一个单向通道,允许数据从一个步骤向另一个步骤流动。
- 在Kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。
- 数据流有的时候也被称之为记录流。
4.5、Kettle里面的 Step(步骤控件)
是转换里的基本的组成部分。
4.5.1、一个步骤有如下几个关键特性
- 步骤需要有一个名字,这个名字在转换范围内唯一。
- 每个步骤都会读、写数据行
- 唯一例外是"生成记录"步骤,该步骤只写数据
- 步骤将数据写到与之相连的一个或多个输出跳(hop),再传送到跳(hop)的另一端的步骤。
- 大多数的步骤都可以有多个输出跳(hop)。
- 一个步骤的数据发送可以被被设置为分发和复制
- 分发:目标步骤轮流接收记录
- 复制:所有的记录被同时发送到所有的目标步骤。
4.6、Kettle里面的 Hop跳(即图元之间的连线)
- 跳就是步骤之间带箭头的连线,跳定义了步骤之间的数据通路。
- 跳实际上是两个步骤之间的被称之为行集的数据行缓存(行集的大小可以在转换的设置里定义)。
- 当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。
- 当行集空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。
4.7、Kettle里面的 数据行–数据类型。
- 数据以数据行的形式沿着步骤移动。
- 一个数据行是零到多个字段的集合
4.7.1、字段的几种数据类型
- String:字符类型数据
- Number:双精度浮点数。
- Integer:带符号长整型(64位)。
- BigNumber:任意精度数据。
- Date:带毫秒精度的日期时间值。
- Boolean:取值为true和false的布尔值。
- Binary:二进制字段可以包含图像、声音、视频及其他类型的二进制数据。
4.8、Kettle里面的,数据行–元数据。
- 每个步骤在输出数据行时都有对字段的描述,这种描述就是数据行的元数据。
4.8.1、元数据 包含下面一些信息
- 名称:行里的字段名应用是唯一的。
- 数据类型:字段的数据类型。
- 格式:数据显示的方式,如Integer的 0.00。
- 长度:字符串的长度或者BigNumber类型的长度。
- 精度:BigNumber数据类型的十进制精度。
- 货币符号:¥
- 小数点符号:
- 十进制数据的小数点格式。
- 不同文化背景下小数点符号是不同的,一般是点(.)或逗号(,)。
- 分组符号:
- 数值类型数据的分组符号
- 不同文化背景下数字里的分组符号也是不同的,一般是点(.)或逗号(,)或单引号(')。
4.9、Kettle里面的 并行概念。
跳的这种基于行集缓存的规则允许每个步骤都是由一个独立的线程运行,这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里,我们经常要处理大量数据,所以这种并发低消耗内存的方式也是ETL工具的核心需求。
对于kettle的转换,不可能定义一个执行顺序,因为所有步骤都以并发方式执行
1. 当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输入跳,直到输入跳里不再有数据,就中止步骤的运行。
2. 当所有的步骤都中止了,整个转换就中止了。(要与数据流向区分开)
如果你想要一个任务沿着指定的顺序执行,那么就要使用"作业"
5、资料
http://www.kettle.org.cn/
https://www.dandelioncloud.cn/article/details/1487597814917222401
https://so.csdn.net/so/search?q=kettle%20&t=blog&u=qqfo24
https://blog.51cto.com/search/user?uid=3549599&q=kettle&page=2