Kettle安装下载与应用
持续更新中
1.简介
kettle是一款开源的ETL工具,允许我们管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么。
注:ETL是指EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)
(1)两种脚本文件
transformation和job,transfromation完成针对数据的基础转换,job则完成整个工作流的控制。
(2)五个组件
Spoon
:图形用户界面,允许通过图形界面设计ETL转换过程
Pan
:转换(transform)执行器;允许批量运行由Spoon设计的ETL转换(如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。
Chef
:允许创建任务(Job)。任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行。
Kithcen
:作业(job)执行器;允许批量使用由Chef设计的任务(如使用一个时间调度器)。kithcen也是一个后台运行的程序。
Encr
:用来加密数据库连接数据库密码与集群时使用的密码。
你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。
2.下载与安装
本文主要介绍kettle的应用场景,kettle的下载与安装可参考:链接: http://www.kettle.net.cn/1728.html.
3.应用场景
示例1:将数据源A库中的某张表的数据插入到数据库B中。
示例2:将数据源A库中的某张表的数据插入更新到数据库B中。
示例3:将数据源A库中的某张表或某几个表中的字段合并后的数据插入到数据库B中。
示例4:将数据源A库中的某两张或多张表级联查询的数据插入到数据库B中的一张表中
3.1 示例1
1.运行软件,进入主界面,点击左上角的File—>New—>Transformation,新建一个转换并保存,转换的后缀名为ktr。
3.接下俩设置连接名Connection Name,在connection Type里选择连接类型,在setting里设置数据连接参数。上述参数设置完毕后,点击test,测试数据库是否连接成功。
例如从hive中向mysql中插入数据,需要建立两个链接,并且connection Type则分别选择Hadoop hive和mysql。
4.点击左上角的Design,选择 Input下的table input
5.双击table input图标,编辑数据输入源,选择第3步建立的连接,编辑sql语句
6.点击左上角的Design,选择 Output下的table input下的insert/update
7.按住shift从Table input到 Insert/Update
8.对 Insert/Update 进行配置,在the key(s) to look up the value(s) 中设置需连接的字段。在update field里设置需要更新的字段。Updare为Y表示需要更新,为N表示不需要更新。Comment size通常设置为1000或10000。设置完后点OK
9.点运行,点击launch。到这里即完成了一次插入数据的操作。