0.资源下载
链接: https://pan.baidu.com/s/1EJGXy19x70081pl1MkxfDw 提取码: xn63 复制这段内容后打开百度网盘手机App,操作更方便哦
1.快速入门
将下载好的压缩包解压(注意:上级目录不能有中文)
将mysql-connector-java-5.1.38.jar复制到lib文件夹下面
进入目录data-integration,双击Spoon.bat启动(第一次记载比较慢)
启动成功,点击右上角connect
新建配置仓库
注意:不能有中文
新建
配置文件(注意需要提前在mysql创建kettle数据库)
链接成功
之后点击finsh创建配置仓库完成。
默认使用admin admin登录仓库
成功连接
2.测试MySQL连接
在mysql创建kettledemo数据库,并创建表格
create table stu1(id int, name varchar(20), age int);
create table stu2(id int, name varchar(20));
insert into stu1 values(1001,'zhangsan',22),(1002,'lisi',22),(1003,'xiaohua',22);
insert into stu2 values(1001,'hanmeimei');
创建转换
拉取表输入并双击
新建
创建链接
预览数据
拉取插入更新
按住shift连接
如图进行配置
执行
执行成功
3.测试Hive连接
首先启动hiveserver2服务
在hive的default数据库下创建表格数据
create table emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal int,
comm string,
deptno int
)
row format delimited
fields terminated by '\t';
create table dept(
deptno int,
dname string,
loc string
)
row format delimited
fields terminated by '\t';
insert into dept values
(10,'accounting','NEW YORK'),
(20,'RESEARCH','DALLAS'),
(30,'SALES','CHICAGO'),
(40,'OPERATIONS','BOSTON');
insert into emp values
(7369,'SMITH','CLERK','7902','1980-12-17',800,NULL,20),
(7499,'ALLEN','SALESMAN','7698','1980-12-17',1600,300,30),
(7521,'WARD','SALESMAN','7698','1980-12-17',1250,500,30),
(7566,'JONES','MANAGER','7839','1980-12-17',2975,NULL,20);
修改data-integration\plugins\pentaho-big-data-plugin目录下的plugin.properties
进入data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26文件夹,将服务器的配置文件拉取到本地
我的hive版本是1.1.0而kettle里面的版本是1.2.0
于是我将kettle的hive文件删除,然后复制了服务器的hive相关jar
创建表输入并配置hive连接
加载表数据
进行排序
连接数据
文件输出
测试
注意:
脚本执行语句
执行job
Kitchen.bat -rep=mysql_rep -user=admin -pass=admin -job=jobdemo1 -dir=/ -logfile=H:\study\kettle\kettle-neo4j-remix-8.2.0.7-719-REMIX\data-integration\logs\log.txt
./kitchen.sh -rep=mysql_rep -user=admin -pass=admin -job=jobdemo1 -dir=/ -logfile=./logs/log.txt
执行转换
./pan.sh -rep=mysql_rep -user=admin -pass=admin -trans=hive2hdfs -dir=/