5.2Kettle数据的清洗与检验——填充缺失值

数据准备

现有一份社会人员调查信息的数据文件people_survey,由于某种原因,数据采集的过程中产生了大量的缺失值。

下面将通过Kettle工具,使用平均填充法对缺失值进行填充。

步骤:

1.打开kettle工具,创建转换fill_missing_value,添加如下控件及Hop跳连接线

2.配置“文本文件输入”控件

添加相关字段

预览数据

3.配置“过滤记录”控件

4.配置“替换NULL值”控件

5.配置“合并记录” 控件

6.配置“替换NULL值2”控件

 7.配置“字段选择”控件

移除flagfield字段

8.运行转换fill_missing_value

完成了缺失值的填充!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Kettle转换过程中,默认情况下,空值会被当做NULL值处理。如果数据类型字段中存在NULL值,那么在计算时就会出现错误。为了处理空值,可以使用Kettle中的【替换NULL值】组件。比如在"2019年11月月考英语成绩.xls"文件中,如果学号为"201709007"的同学没有参加考试,根据规定考试分数将按0分处理,可以使用【替换NULL值】组件,将该同学的英语考试分数替换为"0"。\[1\] 另外,如果在数据中存在空值,可以使用Kettle的过滤记录组件来去除含有空值的数据记录。比如在实验中,可以使用过滤记录组件将属性title和content的值为空的数据记录进行过滤,保留下来的数据则不含空值。\[2\] #### 引用[.reference_title] - *1* [kettle案例13-替换NULL](https://blog.csdn.net/zhang_xiaomeng/article/details/120985582)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [kettle——实验二(去除含空值数据,裁剪字符串)](https://blog.csdn.net/wake_up_42/article/details/127970852)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值