Kettle
文章平均质量分 65
ETL工具使用
RotKang
专注大数据技术应用与前沿技术探索
展开
-
Kettle连接Hadoop与Hive
Kettle连接Hadoop与Hive原创 2015-05-04 16:19:27 · 8372 阅读 · 2 评论 -
【Kettle从零开始】第二弹之Kettle文件夹与界面介绍
1、 下载Kettle3.2GA工具压缩文件。2、 下载1.5或者以上JDK。Kettle工具下载路径可以查看【第一弹Kettle简单介绍】。 文件夹介绍下载Kettle3.2GA解压后出现下图相关文件夹以及文件夹介绍说明:Config-jndi:存放Kettle使用JNDI方式连接数据源方式的文件存放目录。目录下的jdbc.properties配置文件原创 2014-03-10 00:15:51 · 21213 阅读 · 0 评论 -
【Kettle从零开始】第一弹之Kettle简单介绍
Kettle简单介绍原创 2014-03-09 01:34:54 · 17450 阅读 · 1 评论 -
【Kettle从零开始】实例下载
【Kettle从零开始】实例下载原创 2014-03-11 19:08:17 · 4296 阅读 · 0 评论 -
【Kettle从零开始】第九弹之Kettle定时任务介绍
在数据仓库环节ETL定时任务是一个必不可少的一个环节,因为定时任务取决与你的ETL程序抽取业务数据的频率程度(日、周、季、月、年),一般情况下都采用T+1方式来抽取数据。关于Kettle定时任务需要调用脚本来执行“作业”与“转换”对应脚本名“Kitchen”与“Pan”,如果是NT系统则找.bat结尾,Liunx系统则找.sh结尾相应脚本。 需求说明:默认情况下采用T+1方式抽取数据到原创 2014-03-11 16:45:58 · 22126 阅读 · 2 评论 -
【Kettle从零开始】第十一弹之Kettle性能调优介绍
性能高优在整个工程中是非常重要的,也是非常有必要的。但有的时候我们往往都不知道如何对性能进行调优。其实性能调优主要分两个方面:一方面是硬件调优,一方面是软件调优。本弹主要是介绍Kettle工具性能调优。关于Kettle性能调优方法有以下几点:1、 调整JVM大小进行性能优化,修改Kettle定时任务中的Kitchen与Pan脚本中。修改脚本代码片段原创 2014-03-11 18:23:32 · 12497 阅读 · 3 评论 -
【Kettle从零开始】第十弹之Kettle运行日志介绍
关于Kettle日志是很重要的一部分,因为不管是任何信息都只能通过日志的方式来查找自己所关心的信息。日志存储有两种方式:一种是文本文件存储日志,另一种是资源库存储日志(注:Kettle资源库日志分两类,一类是Job日志,一类是Trans日志)。日志级别有七类:序号级别描述1没有日志(Nothing)基本原创 2014-03-11 17:53:07 · 44625 阅读 · 2 评论 -
【Kettle从零开始】第十二弹之Kettle在Linux下搭建
OS:Red Hat 6 64bitKettle:3.2GAJDK:1.6.0_45在Liunx下搭建Kettle需要准备两个应用:一个是JDK,一个是Kettle。 1、 创建kettle用户名与pentaho组。语法如下:创建组:groupadd –g 502pentaho创建用户:useradd –m kettle-g 502 2、 安装JDK原创 2014-03-11 18:57:40 · 7325 阅读 · 0 评论 -
【Kettle从零开始】第五弹之Kettle转换中常用组件介绍
Kettle版本:3.2GAJDK版本:1.6.0_41OS:NT由于组件涉及非常多,我这就只举例几个常用的组件来进行介绍。需要了解全部组件下载Kettle用户手册下载 表输入(Table Input)屏幕截图图标功能说明常用来利用连接和 SQL,从数据库中读取信息。自动生成基本的 SQL语句。组件说明选项描述原创 2014-03-10 23:53:51 · 24814 阅读 · 2 评论 -
【Kettle从零开始】第八弹之Kettle变量参数传递介绍
对于ETL参数传递是一个很重要的环节,因为参数的传递会涉及到业务数据是如何抽取。下面我为大家举例一个简单的需求。需求说明:需要抽取昨天的数据装载到目标表中。 1、 参数作用域?答:Kettle中参数大致可分为两类:一类是全局参数,一类是局部参数。 2、 参数如何定义?答:A:全局参数定义是通过当前用户下.kettle文件夹中的kettle.propert原创 2014-03-11 13:24:41 · 67681 阅读 · 9 评论 -
【Kettle从零开始】第六弹之Kettle作业流程使用
Kettle版本:3.2GAJDK版本:1.6.0_41OS:NT需求:把每天ETL执行的错误情况以Email形式发送到指定邮箱。1、创建转换(Ctrl+N),本实例则使用【第四弹Kettle数据抽取使用】中所使用到的转换(RotKang_01.ktr)2、 创建作业对转换进行流程控制,只有在转换执行错误的情况下发送邮件。3、获取发送邮箱地址:yvigmmwfn@16原创 2014-03-10 23:54:44 · 36428 阅读 · 2 评论 -
【Kettle从零开始】第四弹之Kettle转换数据抽取使用
Kettle版本:3.2GAJDK版本:1.6.0_41OS:NT需求:需要把业务系统库、TXT文件、EXCEL文件中的数据抽取到数据仓库中。1、 创建转换(Ctrl+N),转换名称为:RotKang_Test012、 创建数据源连接Rot_Source、Rot_Target,可参考【Kettle数据源连接配置】3、 在Kettle设计盘中拖入“表输入”、原创 2014-03-10 23:52:33 · 20764 阅读 · 1 评论 -
【Kettle从零开始】第三弹之Kettle数据源连接配置
Kettle版本:3.2GAJDK版本:1.6.0_41OS:NT关于Kettle数据源连接方式有三种:JDBC、ODBC、JNDI、(OCI只针对Oracle DB),但经常用到的只有两种:一种是JDBC,一种是ODBC数据库连接方式。Kettle中对于数据源有作用域的定义,也就是说有全局数据源与局部数据源两种。 1. 首先打开Kettle UI界面,使用快原创 2014-03-10 23:51:21 · 51148 阅读 · 4 评论 -
【Kettle从零开始】第七弹之Kettle作业中常用组件介绍
Kettle版本:3.2GAJDK版本:1.6.0_41OS:NT原创 2014-03-11 12:16:25 · 18479 阅读 · 1 评论 -
Kettle使用【插入\更新】组件非常慢
1、建立相应的关键字索引2、表与表关联的关键字段数据类型必须一致突然发现不管是使用Mysql还是Hive经常出错关联后效率非常慢。反思:以后在建模时一定需要严谨考虑这个事情,不然总会效率又变慢了。特别是使用create table table_name as select * from table_name;原创 2016-09-26 20:57:47 · 22154 阅读 · 4 评论