Kettle分布式集群安装部署
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。目前Kettle8和Kettle9都需要Java8或者以上才能正常运行。
生产环境中kettle服务器都是部署在linux服务器上,在windows本地开发好kettle任务,然后在linux集群环境上运行。
Kettle有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen。
Chef——工作(job)设计工具 (GUI方式)
Kitchen——工作(job)执行器 (命令行方式)
Spoon——转换(transform)设计工具 (GUI方式)
Span——转换(trasform)执行器 (命令行方式)
一、Kettle分布式集群环境准备
准备三台CentOS7服务器,三台机器都需要安装好jdk和Kettle,参考下面这篇博客:
Centos7服务器搭建Hadoop、Spark、Flink分布式集群环境准备