【实验目的】
利用Kettle的“分组”,“JavaScript代码”,“字段选择”组件,实现数据质量统计。
【实验原理】
过“JavaScript代码”对表格的记录进行质量分类,然后通过“字段选择”生成带质量标志位字段的数据,再通过“分组”统计数据的质量问题。
【实验步骤】
一、创建转换
1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。
2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好,按下图所示连接好组件。主要组件为excel input,Script,Select Values,Group By,excel writer。组件支持自定义命名。
二、可视化编程
1. “Excel输入”的配置:
2.“JavaScript代码”的配置:
3.“字段选择”的配置:
4.“Microsoft Excel 输出”配置:
5.“分组”配置:
6. “Microsoft Excel 输出2”配置:
三.运行程序:
点击开始运行程序,在弹出的对话框中,选择运行该程序。
运行结果:
四.实验结果
输入数据
(1) 课程信息表.
输出数据:
“Microsoft Excel 输出”输出数据:
“Microsoft Excel 输出2”输出数据: