1. 建立hive表,导入原始数据,过程参考
http://blog.csdn.net/wzy0623/article/details/51133760
2. 建立一个作业,查询hive表,并将聚合数据写入一个hive表
(1)打开PDI,新建一个作业,如图1所示。
(3)共享数据库连接(可选)
(4)编辑'SQL'作业项,如图3所示。
(6)检查hive表,结果如图5所示。
http://blog.csdn.net/wzy0623/article/details/51133760
2. 建立一个作业,查询hive表,并将聚合数据写入一个hive表
(1)打开PDI,新建一个作业,如图1所示。
图1
(2)建立一个hive的数据库连接,如图2所示。
图2
说明: kettle连接hive的相关配置参考 http://blog.csdn.net/wzy0623/article/details/50903133。(3)共享数据库连接(可选)
(4)编辑'SQL'作业项,如图3所示。
图3
(5)保存并执行作业,日志如图4所示。
图4
从图4可以看到,作业已经成功执行。(6)检查hive表,结果如图5所示。
图5
从图5可以看到,新建了weblogs_agg表,并装载了聚合数据。