Data Integration (or Kettle) delivers powerful Extraction, Transformation, and Loading (ETL) capabilities, using a groundbreaking, metadata-driven approach.
downloads:žhttp://kettle.pentaho.org/
kettle入门:
资源库:
Kettle资源库是保存trans和job的地方。kettle有三种资源库保存方式,一种是纯数据库的方式,所有的转换全部都保存在一个数据库中;另一种是文本文件,也就是xml文件,还有一种是pentaho respository
Repository Configuration and Management
Oracle数据库:
驱动程序包名:ojdbc14.jar
驱动类的名字:oracle.jdbc.driver.OracleDriver
JDBC URL:jdbc:oracle:thin:@dbip:port:databasename
说明:驱动程序包名有可能会变
JDBC URL中各个部分含义如下:
dbip –为数据库服务器的IP地址,如果是本地可写:localhost或127.0.0.1。
port –为数据库的监听端口,需要看安装时的配置,缺省为1521。
databasename –为数据库的SID,通常为全局数据库的名字。
SQL Server数据库
驱动程序包名:msbase.jar mssqlserver.jar msutil.jar
驱动类的名字:com.microsoft.jdbc.sqlserver.SQLServerDriver
JDBC URL:jdbc:microsoft:sqlserver://dbip:port;DatabaseName=databasename
说明:驱动程序包名有可能会变
JDBC URL中各个部分含义如下:
dbip –为数据库服务器的IP地址,如果是本地可写:localhost或127.0.0.1。
port –为数据库的监听端口,需要看安装时的配置,缺省为1433。
databasename –数据库的名字。
MySQL数据库
驱动程序包名:mysql-connector-java-3.1.11-bin.jar
驱动类的名字:com.mysql.jdbc.Driver
JDBC URL:jdbc:mysql://dbip:port/databasename
说明:驱动程序包名有可能会变
JDBC URL其中各个部分含义如下:
dbip –为数据库服务器的IP地址,如果是本地可写:localhost或127.0.0.1。
port –为数据库的监听端口,需要看安装时的配置,缺省为3306。
databasename –数据库的名字。
jdbc:microsoft:sqlserver://dbip:port;DatabaseName=databasename
jdbc:sqlserver://10.70.78.57:1433;username=mdmUser;password=zaq1xsw@;database=MobilePlatformDB
2017-12-07 17:05:17.431 java[34144:10492389] warning: <NSRemoteView: 0x7fbfc7b527f0> determined it was necessary to configure <_NSFunctionRowPanel: 0x7fbfc8165f90> to support remote view vibrancy
ETL利器Kettle应用
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)
1 Kettle概念
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
2 下载和部署
Kettle可以在http://kettle.pentaho.org/网站下载
kettle需要jdk支持,JDK1.5或以上版本就行
3 运行Kettle
Kettle提供了资源库方式的方式来整合所有的工作,但是因为资源库移植不方便,所以我们选择没有资源库
1)创建一个新的transformation,点击 保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation文件保存后后缀名为ktr;
2)创建一个新的job,点击 保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb;
4 组件树介绍
| Main Tree菜单列出的是一个transformation中基本的属性,可以通过各个节点来查看。
DB连接:显示当前transformation中的数据库连接,每一个transformation的数据库连接都需要单独配置。
Steps:一个transformation中应用到的环节列表
Hops:一个transformation中应用到的节点连接列表 |
| Core Objects菜单列出的是transformation中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。
Input:输入环节 Output:输出环节 Lookup:查询环节 Transform:转化环节 Joins:连接环节 Scripting:脚本环节 |
Transformation转换介绍
每一个环节可以通过鼠标拖动来将环节添加到主窗口中。
并可通过shift+鼠标拖动,实现环节之间的连接。
转换常用环节介绍
类别 | 环节名称 | 功能说明 |
Input | 文本文件输入 | 从本地文本文件输入数据 |
表输入 | 从数据库表中输入数据 | |
获取系统信息 | 读取系统信息输入数据 | |
Output | 文本文件输出 | 将处理结果输出到文本文件 |
表输出 | 将处理结果输出到数据库表 | |
插入/更新 | 根据处理结果对数据库表机型插入更新,如果数据库中不存在相关记录则插入,否则为更新。会根据查询条件中字段进行判断 | |
更新 | 根据处理结果对数据库进行更新,若需要更新的数据在数据库表中无记录,则会报错停止 | |
删除 | 根据处理结果对数据库记录进行删除,若需要删除的数据在数据库表中无记录,则会报错停止 | |
Lookup | 数据库查询 | 根据设定的查询条件,对目标表进行查询,返回需要的结果字段 |
流查询 | 将目标表读取到内存,通过查询条件对内存中数据集进行查询 | |
调用DB存储过程 | 调用数据库存储过程 | |
Transform | 字段选择 | 选择需要的字段,过滤掉不要的字段,也可做数据库字段对应 |
过滤记录 | 根据条件对记录进行分类 | |
排序记录 | 将数据根据某以条件,进行排序 | |
空操作 | 无操作 | |
增加常量 | 增加需要的常量字段 | |
Scripting | Modified Java Script Value | 扩展功能,编写JavaScript脚本,对数据进行相应处理 |
Mapping | 映射(子转换) | 数据映射 |
Job | Sat Variables | 设置环境变量 |
Get Variables | 获取环境变量 |
4.3 Job任务介绍
| Main Tree菜单列出的是一个Job中基本的属性,可以通过各个节点来查看。
DB连接:显示当前Job中的数据库连接,每一个Job的数据库连接都需要单独配置。
Job entries:一个Job中引用的环节列表
|
Job entries菜单列出的是Job中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。
每一个环节可以通过鼠标拖动来将环节添加到主窗口中。
并可通过shift+鼠标拖动,实现环节之间的连接。 |
常用环节介绍
类别 | 环节名称 | 功能说明 |
Job entries | START | 开始 |
DUMMY | 结束 | |
Transformation | 引用Transformation流程 | |
Job | 引用Job流程 | |
Shell | 调用Shell脚本 | |
SQL | 执行sql语句 | |
FTP | 通过FTP下载 | |
Table exists | 检查目标表是否存在,返回布尔值 | |
File exists | 检查文件是否存在,返回布尔值 | |
Javascript | 执行JavaScript脚本 | |
Create file | 创建文件 | |
Delete file | 删除文件 | |
Wait for file | 等待文件,文件出现后继续下一个环节 | |
File Compare | 文件比较,返回布尔值 | |
Wait for | 等待时间,设定一段时间,kettle流程处于等待状态 | |
Zip file | 压缩文件为ZIP包 |