最近工作要用到ETL工具,pentaho data integration ,即kettle。用来控制hadoop2.2.0的作业调度,并且处理和mysql数据库的交互。首先说明一点,pentaho分为EE版和CE版,EE版能够免费使用30天,包含其他BI套件。而CE版则只有一个Spoon工具(个人理解,错误请指正)。
下载地址EE版:http://www.pentaho.com/download
下载地址CE版:http://community.pentaho.com/index.html
在centos(linux的一种)下,
EE版安装:
EE版下载下来的是.bin的二进制文件,切换root用户,然后给下载下来的文件赋权限
chmod 777 文件路径
然后切换回你要用的那个用户,并进入文件下载路径的上一级地址,然后打开命令行,输入
./pdi-5.0.1-x64.bin(下载的文件名)
然后就可以看见可视化界面的安装了。
CE版安装:
在MainDownload下选data integration,然后点击下载。
下载后直接解压后即可用,解压后文件的目录为data-integration。
Spoon的启动。
进入data-integration目录,然后打开命令行,输入./spoon.sh即可启动。
penatho 组件文档地址:http://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+Steps。