开源ETL工具Kettle(PDI)开发使用全指导(持续更新...最后更新时间20200416)

0. 概念特性

PDI(Kettle)使用开创性的元数据驱动方法,提供强大的提取、转换和加载(ETL)功能。

PDI(Kettle)凭借直观,图形化,拖放式设计环境以及经过验证的,可扩展的,基于标准的体系结构,数据集成已成为组织超越传统专有ETL或数据集成工具的选择。

Hitachi Vantara网站上的Pentaho

1. 安装部署

1.1 下载解压

Data-Integration-kettle地址,打开网页,浏览找到Downloads处,下载最新CE稳定版本。

社区版PDI项目文件地址:https://sourceforge.net/projects/pentaho/files/
企业版PDI下载路径(可30天试用):https://community.hitachivantara.com/s/article/downloads

下载之后进行解压到本地,复制data-integration目录路径可以选择性配置一下KETTLE_HOME,当然可以不配置,只要在data-integration目录下运行Spoon.bat批处理文件即可。

1.2 Kettle运行基础环境

Kettle基于Java开发的绿色软件,开包即用,但是得具备基础环境,也就是本地环境中得有Java及相关的Java环境变量配置

2. Kettle初次使用

在data-integration目录下找到spoon.bat(windows批处理文件)文件运行,那么在Ubuntu下或者安装了界面的Linux环境下就用spoon.sh打开运行。如果自己的本地系统等环境没有很过时,应该就没有任何问题,如果系统较旧,比如Windows 7、Window Server2008等系统及IE浏览器版本过低,就会出现一些问题。下面会介绍我遇见过的一些异常问题。
在这里插入图片描述
为了以后快速在桌面打开应用,无需找到data-integration目录下时,我们进行快捷方式的创建,并为其设置图标。
在这里插入图片描述
在这里插入图片描述

2.1 启动异常

由于我是在Windows server 2008上部署运行的开发环境,所以有遇到以下问题:

  1. 运行spoon.bat闪退,有个攻略说将spoon.bat中的PENTAHO_DI_JAVA_OPTIONS配置做修改:
    if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m" "-XX:MaxPermSize=256m"
    改为:
    if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms512m" "-Xmx512m" "-XX:MaxPermSize=256m"
    这样修改着实可行,之后我们打开应用。

  2. 当接上面配置后打开应用,出现如下问题:
    在这里插入图片描述
    在这里插入图片描述
    这类问题就是因为本地的IE浏览器版本太低,解决办法是升级本地IE浏览器。

    升级IE浏览器: 打开ie浏览器->找到帮助栏的联机支持->更新到 Internet Explorer 的最新版本 - >下载合适的版本安装就行。下载地址
    下载安装IE浏览器后需要重启计算机,之后新装IE浏览器才能使用。

2.2 正常启动

在这里插入图片描述

3. 资源库

3.1 Kettle资源库相关

Pentaho提供了两个Kettle版本,一个是开源的社区版(CE);一个是企业版本(EE),是一个商用软件。

要了解有关Pentaho Kettle与商业支持的Pentaho Enterprise Edition之间的区别的更多信息,查看文件(leverage-open-source-benefits-with-assurance-of-hitachi-overview.pdf)或者请单击此处( https://www.hitachivantara.com/en-us/pdf/brochure/leverage-open-source-benefits-with-assurance-of-hitachi-overview.pdf?ecid=ms_glo_bd_en_ecsflink1

关于资源库就有两类三种:

  1. 企业资源管理器(Pentaho Repository ):通过Pentaho服务器在中央环境中存储转换,作业和计划;
  2. 数据库资源管理器(Database Repository):使用中央关系数据库存储ETL元数据;
  3. 文件资源管理器(File Repository):使用本地文件系统存储元数据。
    在这里插入图片描述
    在Spoon中点击Connect进行资源库管理或连接。当没有资源库管理时,会弹出New Repository Connect界面进行资源库创建。当使用企业版Kettle时,毫无疑问选择企业资源库管理ETL元数据,所以选择Get Start开始企业资源库的创建;当我们使用社区版的Kettle,完全免费使用Kettle做ETL工具进行开发时,虽然Pentaho“不支持”或不建议生产环境使用,但是告诉大家肯定可以在生产环境使用,所以我们选择Other Repository :
    在这里插入图片描述
    出于小型ETL开发团队对开发流程和开发版本等的更好控制,我们在使用社区版Kettle时最好选择File Repository,这样我们结合开发版本控制软件(比如:SVN、Git)进行资源库的合理有序管理控制及测试发布。我开始接触Kettle时在项目开发工作中就是使用文件资源库,下面我们介绍File Repository的创建和使用。
    在你的本地创建一个资源库路径,最好将给文件夹进行ETL项目托管在GitLab之上,后续开始项目的开发管控。

我这里示例时从公司项目托管平台GitLab上先克隆的文件资源库,所以创建目录直接指向克隆下来的文件夹。

$ git clone http://10.80.36.30:8088/edw-etl/edwetl_rep.git
Cloning into 'edwetl_rep'... remote: Enumerating objects: 313, done.
remote: Counting objects: 100% (313/313), done. remote: Compressing
objects: 100% (145/145), done. remote: Total 3027 (delta 211), reused
252 (delta 165) Receiving objects: 100% (3027/3027), 2.37 MiB | 20.07
MiB/s, done. Resolving deltas: 100% (2561/2561), done. Updating files:
100% (1798/1798), done.

在这里插入图片描述

3.2 Kettle文件资源库创建

文件资源库创建:
在这里插入图片描述
创建成功!
在这里插入图片描述
此时Connect已经变成资源库名称,这里可以对资源库进行管理、连接和断开等操作:
在这里插入图片描述
探索索资源库,进行资源库中元数据的浏览查看,或者打开操作等。快捷键Ctrl+E
在这里插入图片描述
在这里插入图片描述
由上图可以看出资源库管理的信息有浏览中的转换和作业、连接、Hadoop Clusters、子服务器、分区和集群信息。

4. 数据库连接

4.1 数据库连接打开方式

  1. 在探索资源库的连接中点击+号新建数据库连接;
  2. 当有新转换或作业创建时,就可以进行打开数据库的连接。
    总之,新建数据库连接界面打开如下图所示:
    在这里插入图片描述

4.2 数据库连接示例(Oracle)

可以看出数据库连接分类有一般、 高级、选项、连接池和集群。
一般连接类中连接类型几乎涵盖常见的所有数据库类型,连接方式也有不同方式对应。这里我们主要按照贴近企业项目开发选择做介绍,通过Oracle数据库的JNDI连接方式做演示。

  • 复制Oracle的jdbc驱动(C:\app\Administrator\product\11.2.0\client_1\jdbc\lib 目录下的jar包)到kettle_home的lib文件夹(C:\data-integration\lib)
  • 配置(C:\data-integration\simple-jndi)文件夹下的jdbc.properties文件。格式参考如下:
    EDWDB/type=javax.sql.DataSource
    
    EDWDB/driver=oracle.jdbc.driver.OracleDriver
    
    EDWDB/url=jdbc:oracle:thin:@(DESCRIPTION =(ADDRESS_LIST =(LOAD_BALANCE = yes)(ADDRESS = (PROTOCOL = TCP)(HOST = 10.80.36.12)(PORT = 1521))(ADDRESS = (PROTOCOL = TCP)(HOST = 10.80.36.13)(PORT = 1521)))(CONNECT_DATA =(FAILOVER_MODE =(TYPE = select)(METHOD = basic))(SERVICE_NAME = edwdb)))
    
    EDWDB/user=EDBADM
    
    EDWDB/password=edbadm1234
    
    or
    
    WMSETL/type=javax.sql.DataSource
    
    WMSETL/driver=oracle.jdbc.driver.OracleDriver
    
    WMSETL/url=jdbc:oracle:thin:@(DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 10.80.34.5)(PORT = 1521)) (CONNECT_DATA = (SERVER = DEDICATED) (SERVICE_NAME = orcl)))
    
    WMSETL/user=WMSETL
    
    WMSETL/password=WMSETL
    
    上述配置密码是明文,后续说明密文相关!
    完成上述两步之后,如果Spoon时启动的,就需要重启Spoon。至此就可以进行Oracle数据库的连接了:
    在这里插入图片描述

(未完、待续…)

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值