1.配置kettle支持的hadoop版本
修改data-integration\plugins\pentaho-big-data-plugin\plugin.properties中
active.hadoop.configuration=hdp23
支持的hadoop版本在data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations中列出
2.在kettle界面选择支持的hadoop版本
工具>Hadoop Distribution>
3.在Hadoop cluster配置页面填入相关信息(可参照ambari管理界面),然后点击“测试”,查看配置结果
此处会碰到一些问题:
1).shim configuration verification红叉
解决办法:
将data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp23中的hadoop配置文件xml,替换为hadoop集群中的配置文件
比如core-site.xml、hbase-site.xml、mapred-site.xml、yarn-site.xml
2).user home directory access和verify user home permission红叉
1.(废弃)这个问题网上解决办法不多,hdfs用户为启动其进程时的用户,ambari默认用的是hdfs用户,所以需要将kettle拷贝到Hadoop的hdfs用户目录下。
我当时是在办公电脑上配置的,始终测试不通过。因为办公电脑用户不是hdfs,kettle始终用的是本机用户连接的Hadoop cluster。
2.在hdfs文件系统创建办公电脑的用户:
hadoop fs -mkdir /user/用户名
4.测试通过后