kettle

最新推荐文章于 2022-01-06 21:13:54 发布

wandy0211

最新推荐文章于 2022-01-06 21:13:54 发布

阅读量667

点赞数

分类专栏： ETL

本文链接：https://blog.csdn.net/wjandy0211/article/details/78579289

版权

ETL 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Data Integration (or Kettle) delivers powerful Extraction, Transformation, and Loading (ETL) capabilities, using a groundbreaking, metadata-driven approach.

downloads：žhttp://kettle.pentaho.org/

kettle入门：

资源库：

Kettle资源库是保存trans和job的地方。kettle有三种资源库保存方式，一种是纯数据库的方式，所有的转换全部都保存在一个数据库中；另一种是文本文件，也就是xml文件，还有一种是pentaho respository

Repository Configuration and Management

Oracle数据库:

驱动程序包名：ojdbc14.jar

驱动类的名字：oracle.jdbc.driver.OracleDriver

JDBC URL：jdbc:oracle:thin:@dbip:port:databasename

说明：驱动程序包名有可能会变

JDBC URL中各个部分含义如下：

dbip –为数据库服务器的IP地址，如果是本地可写：localhost或127.0.0.1。

port –为数据库的监听端口，需要看安装时的配置，缺省为1521。

databasename –为数据库的SID，通常为全局数据库的名字。

SQL Server数据库

驱动程序包名：msbase.jar mssqlserver.jar msutil.jar

驱动类的名字：com.microsoft.jdbc.sqlserver.SQLServerDriver

JDBC URL：jdbc:microsoft:sqlserver://dbip:port;DatabaseName=databasename

说明：驱动程序包名有可能会变

JDBC URL中各个部分含义如下：

dbip –为数据库服务器的IP地址，如果是本地可写：localhost或127.0.0.1。

port –为数据库的监听端口，需要看安装时的配置，缺省为1433。

databasename –数据库的名字。

MySQL数据库

驱动程序包名：mysql-connector-java-3.1.11-bin.jar

驱动类的名字：com.mysql.jdbc.Driver

JDBC URL：jdbc:mysql://dbip:port/databasename

说明：驱动程序包名有可能会变

JDBC URL其中各个部分含义如下：

dbip –为数据库服务器的IP地址，如果是本地可写：localhost或127.0.0.1。

port –为数据库的监听端口，需要看安装时的配置，缺省为3306。

databasename –数据库的名字。

jdbc:microsoft:sqlserver://dbip:port;DatabaseName=databasename

jdbc:sqlserver://10.70.78.57:1433;username=mdmUser;password=zaq1xsw@;database=MobilePlatformDB

2017-12-07 17:05:17.431 java[34144:10492389] warning: <NSRemoteView: 0x7fbfc7b527f0> determined it was necessary to configure <_NSFunctionRowPanel: 0x7fbfc8165f90> to support remote view vibrancy

ETL利器Kettle应用

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程）

1 Kettle概念

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。

Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

2 下载和部署

Kettle可以在http://kettle.pentaho.org/网站下载

kettle需要jdk支持，JDK1.5或以上版本就行

3 运行Kettle

Kettle提供了资源库方式的方式来整合所有的工作，但是因为资源库移植不方便，所以我们选择没有资源库

1）创建一个新的transformation，点击保存到本地路径，例如保存到D:/etltest下，保存文件名为EtltestTrans，kettle默认transformation文件保存后后缀名为ktr；

2）创建一个新的job，点击保存到本地路径，例如保存到D:/etltest下，保存文件名为EtltestJob，kettle默认job文件保存后后缀名为kjb；

4 组件树介绍

Main Tree菜单列出的是一个transformation中基本的属性，可以通过各个节点来查看。

DB连接：显示当前transformation中的数据库连接，每一个transformation的数据库连接都需要单独配置。

Steps：一个transformation中应用到的环节列表

Hops：一个transformation中应用到的节点连接列表　　　　　　　　　　　　　　　　　　　　　　　　　　　　

Core Objects菜单列出的是transformation中可以调用的环节列表，可以通过鼠标拖动的方式对环节进行添加。

Input：输入环节

Output：输出环节

Lookup：查询环节

Transform：转化环节

Joins：连接环节

Scripting：脚本环节

Transformation转换介绍

每一个环节可以通过鼠标拖动来将环节添加到主窗口中。

并可通过shift+鼠标拖动，实现环节之间的连接。

转换常用环节介绍

类别	环节名称	功能说明
Input	文本文件输入	从本地文本文件输入数据
	表输入	从数据库表中输入数据
	获取系统信息	读取系统信息输入数据
Output	文本文件输出	将处理结果输出到文本文件
	表输出	将处理结果输出到数据库表
	插入/更新	根据处理结果对数据库表机型插入更新，如果数据库中不存在相关记录则插入，否则为更新。会根据查询条件中字段进行判断
	更新	根据处理结果对数据库进行更新，若需要更新的数据在数据库表中无记录，则会报错停止
	删除	根据处理结果对数据库记录进行删除，若需要删除的数据在数据库表中无记录，则会报错停止
Lookup	数据库查询	根据设定的查询条件，对目标表进行查询，返回需要的结果字段
	流查询	将目标表读取到内存，通过查询条件对内存中数据集进行查询
	调用DB存储过程	调用数据库存储过程
Transform	字段选择	选择需要的字段，过滤掉不要的字段，也可做数据库字段对应
	过滤记录	根据条件对记录进行分类
	排序记录	将数据根据某以条件，进行排序
	空操作	无操作
	增加常量	增加需要的常量字段
Scripting	Modified Java Script Value	扩展功能，编写JavaScript脚本，对数据进行相应处理
Mapping	映射（子转换）	数据映射
Job	Sat Variables	设置环境变量
Job	Get Variables	获取环境变量

4.3 Job任务介绍

Main Tree菜单列出的是一个Job中基本的属性，可以通过各个节点来查看。

DB连接：显示当前Job中的数据库连接，每一个Job的数据库连接都需要单独配置。

Job entries：一个Job中引用的环节列表

Job entries菜单列出的是Job中可以调用的环节列表，可以通过鼠标拖动的方式对环节进行添加。

每一个环节可以通过鼠标拖动来将环节添加到主窗口中。

并可通过shift+鼠标拖动，实现环节之间的连接。

常用环节介绍

类别	环节名称	功能说明
Job entries	START	开始
	DUMMY	结束
	Transformation	引用Transformation流程
	Job	引用Job流程
	Shell	调用Shell脚本
	SQL	执行sql语句
	FTP	通过FTP下载
	Table exists	检查目标表是否存在，返回布尔值
	File exists	检查文件是否存在，返回布尔值
	Javascript	执行JavaScript脚本
	Create file	创建文件
	Delete file	删除文件
	Wait for file	等待文件，文件出现后继续下一个环节
	File Compare	文件比较，返回布尔值
	Wait for	等待时间，设定一段时间，kettle流程处于等待状态
	Zip file	压缩文件为ZIP包

wandy0211

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
kettle

Data Integration (or Kettle) delivers powerful Extraction, Transformation, and Loading (ETL) capabilities, using a groundbreaking, metadata-driven approach.downloads：žhttp://kettle.pentaho.org/kettle入...
复制链接

扫一扫