kettle数据清洗

Excel文件采用表格的形式,数据显示直观,操作方便。 与文本文件不同,Excel文件中采用工作表存储数据,一个文件有多张不同名称的工作表,分别存放相同字段或不同字段的数据。 为方便浏览和统计学生的考试成绩,需要通过Excel输入抽取物理成绩数据。

一、Excel文件输入

1、使用Ctrl+N快捷键,创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中,如图所示。

2、双击【Excel输入】组件,弹出【Excel输入】对话框,其中显示默认的【文件】对话框,如图所示。需要注意的是,【Excel输入】对话框下方的【预览记录】按钮是灰色的,表示不能单击。

 浏览导入Excel文件。单击【浏览(B)…】按钮,在计算机上浏览并导入“物理成绩.xls”文件,如图所示。

3、获取字段。单击【获取头部数据的字段…】按钮,添加字段到【字段】表中设置字段参数,如图所示。

 设置字段参数。对字段参数进行设置,如图所示,此时完成【字段】选项卡参数的设置。

4、设置好字段参数后,单击【预览记录】按钮,弹出【预览数据数量】对话框,要预览的行数采用默认值,并单击【确定】按钮。 弹出【预览数据】对话框,展示Excel输入的数据,如图所示。

二、生成记录

1、在数据统计中,往往要生成固定行数和列数的记录,用于存放统计总数。 为方便记录1~12月份商品的销售总额,需要通过生成记录,生成一个月销售总额的数据表,包括商品名称和销售总额两个字段,记录销售的商品和当月商品统计销售总额,共生成12条记录。

2、双击【生成记录】组件,弹出创建【生成记录】对话框,如图所示。

在生成记录】对话框中,设置有关参数,生成12条记录的商品销售总额表,步骤如下。 (1) 确定组件名称。【步骤名称】参数保留默认值。 (2) 确定表的记录数。【限制】参数设置为“12”。

 设置字段参数。在【字段】表中,对各字段的参数进行设置,如与所示,此时完成【生成记录】组件参数的设置。

3、单击【预览(P)】按钮,弹出【输入预览记录数】对话框,预览记录数采用默认值,单击【确定】按钮。弹出【预览数据】对话框,展示生成记录的如图所示。

三、生成随机数

4、在工作中,往往需要生成随机数验证码,作为数据或文件的验证码。 为方便给授权用户验证文件,需要通过生成随机数,生成一组MD5信息授权码,作为数据文件的认证授权码。

使用Ctrl+N快捷键,创建【生成随机数】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【生成随机数】组件,并拖曳到右边工作区中,如图所示。

5、双击生成随机数】组件,弹出【生成随机值】对话框,如图所示,

在【生成随机值】对话框中,设置参数,随机生成一组MD5信息授权码,步骤如下。 (1) 确定组件名称。【步骤名称】参数保留默认值“生成随机值”。 (2) 设置字段参数。在【字段】表中第1行,设置字段名称和类型。 ① 单击【名称】参数输入框,键盘键入“授权码”。

单击【类型】参数输入框,弹出【选择数据类型】对话框,选择【Random Message Authentication Code(HmacMD5)】类型,如图所示。

6、在【生成随机数】转换工程中,单击【生成随机数】组件,再单击工作区上方的       图标。弹出【转换调试窗口】对话框,展示生成随机数的数据,如图所示。

7、单击【快速启动】按钮,弹出【预览数据】对话框,展示生成随机数的授权码数据,如图所示。

8、批量生成随机数。拖入如下控件。

9、双击进入“生成记录”空间配置。

10、生成随机数配置

11、Excel输出配置,选择要输出的表的位置,点击字段中的获取字段,然后确定。

12、运行并查看数据。

四、获取系统信息

系统信息是指Kettle系统环境的信息,包括了计算机系统的日期、星期等时间类型信息,计算机名称、IP地址等设备信息,Kettle系统转换过程中的信息等。 为方便读取计算机上到本月最后一天的交易数据文件,需要通过获取系统信息,获得当月最后一天的时间,以及当前计算机名称与IP地址等系统信息。

1、使用Ctrl+N快捷键,创建【获取系统信息】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【获取系统信息】组件,并拖曳到右边工作区中,如图所示。

2、双击【获取系统信息】组件,弹出【获取系统信息】对话框,如图所示。

设置第3行参数。与设置第1行参数类似,第3行参数的【名称】参数设置为“IP地址”,【类型】参数设置为“IP地址”,如图所示,此时已完成【获取系统信息】组件的参数设置。

3、点击运行查看结果

五、排序记录

排序是对数据中的无序记录,按照自然或客观规律,根据关键字段大小递增或递减的次序,对记录重新排列的过程。 为了得出学生的成绩排名,需要对“2019年11月月考数学成绩.xls”文件,使用【排序记录】组件,对学生的成绩从低到高排序。

1、在【排序记录】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【排序记录】组件,并拖曳至右边工作区中。由【Excel输入】组件指向【排序记录】组件,建立节点连接,如图所示。

 

 2、击【排序记录】组件,弹出【排序记录】对话框,如图所示。

设置排序字段参数。在【字段】表中,对各字段的参数进行设置,此时完成【排序目录】组件参数的设置,如图所示。

3、运行并查看结果

六、去除重复纪录

由于输入或其他错误的原因,数据文件中可能出现两条或多条数据完全相同的记录,这些相同的记录称为重复记录。 重复的记录属于“脏数据”,会造成数据统计和分析不正确,必须清洗掉重复记录。 由于在“期考成绩.xls”文件中,发现存在序号不同,但是学号、各科考试成绩完全相同的记录,所以需要使用【去除重复记录】组件,去除这些重复的数据。

1、在去除重复记录(简称去重)之前,必须使用关键字段对数据记录进行排序,确定哪些记录属于重复记录。 使用Ctrl+N快捷键,创建【去除重复记录】转换工程。接着创建【Excel输入】组件,设置参数,导入“期考成绩.xls”文件。 接着创建【排序记录】组件,并由【Excel输入】组件指向【排序记录】组件,建立节点连接,如图所示。

 

2、双击【排序记录】组件,对“学号”字段按照升序进行排序后预览数据,如图所示,除了“序号”字段数据外,“学号”分别为“201709023”“201709028”“201709030”的数据各有两条记录,并且对应的“语文”“数学”等考试科目和“创建时间”的数据也相同。

3、在【去除重复记录】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【去除重复记录】组件,并拖曳至右边工作区中,并由【排序记录】组件指向【去除重复记录】组件,建立节点连接,如图所示。

 

4、双击【去除重复记录】组件,弹出【去除重复记录】对话框,如图所示。

5.运行并查看结果。

 摘自《数据清洗》黑马程序员

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值