学习使用kettle链接hive数据库

最近在学习数据仓库.根据一篇文章一步一步建立一套完整的数据仓库(基于hadoop),先学习了ETL工具kettle

这里记录一些使用的情况(踩的坑),供以后回过头来看.

 

首先,当然是下载kettle工具了...点击下载kettle工具,这里拿最新的版本7.1来举例.下载后,直接解压就可以使用了.

但如果想链接hive还是很难受的.

公司搭建了一套hadoop的环境,所有我就没有自己搭建环境来测试了..直接使用公司的.公司的搭建的是CDH5.13版本的hadoop环境,hadoop是2.6.0版本的.

首先要链接hive需要替换配置文件

从管理页面下载hive的配置文件

点击hive进入hive管理界面

然后

下载配置文件后,解压出来将下面4个文件复制替换kettle解压后的data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25下面的文件(元hdp25下右的替换,没有的就是新增)

然后修改kettle配置文件data-integration\plugins\pentaho-big-data-plugin  下面的plugin.properties 文件  将

active.hadoop.configuration= 这里补充为hdp25(这里的hdp25和刚才替换配置文件的文件夹同名)

这样,重启kettle(Spoon.bat) 

新建一个转换或作业  在主对象树view下右键 DB连接 新建连接

输入相关信息点击测试.出现提示成功的小窗口就成功了.有时候会失败,然后就还需要下载hadoop的jar包

1,从https://mvnrepository.com/ 搜索hadoop下载这几个中的对应hadoop版本的jar包

因为我们公司的是这个版本.所以就下这个版本.找对应版本下载就行,其他三个也同样下载对应版本的jar包.然后放在\data-integration\lib下面.

2,将此目录\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations 下面(上面data-integration\plugins\pentaho-big-data-plugin/plugin.properties文件指定的配置)删除对应的文件夹下面lib包里面所有hive*开头的jar包,然后下载你所安装hadoop环境上的hive中的所有hive*开头的jar包,复制进去,还是以我的环境举例,下载添加如下jar包

然后再重启kettle.在照上面的连接步骤去连接,应该就能成功了.

 

PS:在运行任务或转换时会遇到各种各样的jar报错,需要注意的是,最好使用hadoop环境上的jar包添加到kettle下lib中,这样才不会因为版本的问题而报错.

  • 1
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值