9.用kettle进行数据预处理

1.ETL定义(ETL简介)

ETL是将业务系统的数据经过抽取(extract),清洗转换(transform),之后加载(load)到数据仓库的过程。

目的是将企业的分散,零乱,ETL标准不统一的数据整合到一起,我为企业的决策提供分析依据。

ETL基本模块(ETL图)

ETL处理分为三大模块,分别是数据抽取,数据清洗和转换,数据加载。各模块可灵活进行组合,形成ETL处理流程。

2. ETL工具有哪些

2.1 ETL是企业数据仓库构建过程的一个核心步骤,之所以需要ETL工具有以下原因:

(1)当数据来自不同的物理主机,如果使用SQL语句处理的话,就显得比较吃力且开销较大。

(2)数据来源可以是各种不同的数据库或者文件,需要把他们整理成统一格式后才可以进行数据处理,这一过程用代码实现比较麻烦。

(3)在数据库中,我们当然可以使用存储过程去处理数据,但是处理海量数据时,存储过程显然比较吃力,而且会占用较多的数据库的资源,这时候会导致数据库资源不足,进而影响数据库的性能。

2.2 ETL工具

市场上主流的ETL工具主要包括:

(1)KETTLE

(2)DATAPIPLINE

(3)TALEND

(4)INFORMATICA

(5)DATAX

(6)ORACLE GOLDENGATE

3.KETTLE的基本概念

1.数据抽取过程

一个EXTRACT过程主要包括创建一个JOB,每个JOB由一个或多个JOB ENTRY(作业项)和连接JOB ENTRY 的JOB HOP(作业跳)组成。每个作业项可以是一个转换(transformation)或者另一个作业。一个转换由一个或多个步骤(step)和连接步骤的跳(hop)组成。

2.Kettle组件介绍

创建一个新的transformation,kettle默认transformation文件保存后后缀名为ktr。

创建一个新的job,kettle默认job文件保存后缀名为kjb。

(1)Transformation组件树介绍

 一个转换包含一个或多个步骤,每个步骤都是单独的线程,当启动转换时,所有的步骤的线程几乎都是并行执行,步骤之间的数据以数据流方式传递。

所有的步骤都会从它们的输入跳中读取数据,并把处理过后的数据写到输出跳,直到输入跳里不再有数据就终止步骤的运行。当所有的步骤都终止了,整个转换也就终止了。

由于转换里的步骤依赖前一个步骤获取数据,因此转换里不能有循环。

(2)相较于转换,作业是更加高级的操作。

作业由一个或多个作业项(或转换组成)。所有的作业项都是以某种自定义的顺序串执行。作业项之间可以传递一个包含了数据行的结果对象。当一个作业项执行完成后,再传递结果对象给下一个作业项。作业里可以有循环.。

跳是步骤之间带箭头的连接线,它定义了一个单项通道,用于连接两个步骤,实现将数据从一个步骤(写入数据到行集)流向另一个步骤(从行集中读取数据)。跳是两个步骤之间的被称为“行集”。

KETTLE的及基本功能

kettle的基本功能包括转换管理和作业管理,转换管理主要包括输入,输出,转换,应用,流程,等功能、

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值