数据缺失值的3种处理方式,终于有人讲明白了


导读:如何抹掉机器学习的那点空白?

作者:木羊同学

来源:大数据DT(ID:hzdashuju)

01 机器学习的幕后英雄

今天聊一本机器学习方面的有趣的书,书名叫《基于机器学习数据缺失值填补》。要我说的话,数据缺失值填补本身就是个十分有趣的话题。

回忆一下,平时我们聊机器学习都聊什么,聊各种模型的算法和原理,譬如线性回归、朴素贝叶斯、支持向量机,这些都是单独的模型,还有集成模型,譬如随机森林、Xgboost。

在很多人眼里,研究也好,交流也好,聊机器学习就是聊模型,顶多就加上模型训练,譬如超参数设置、损失函数优化、CV等等。也确实在很多人的印象中,机器学习就是和模型打交道,如果把各类机器学习的相关工作围成一个圈的话,圆心一定是模型。

但是,实际工作中往往不是这样。正如我们说软件开发,感觉上码代码是主要工作,但实际上,和客户或者项目组内部的各种会议瞎侃,也就是书本上称之为“需求分析”的,才是最花时间精力的工作。

机器学习也一样,感觉上像是围着模型转,实际花时间最多的地方,往往是很多机器学习教材轻描淡写甚至干脆直接忽略的环节,数据清洗。

我们知道,对机器学习来说,数据非常重要,极端重要,机器学习的模型没有数据,就好比再高档的汽车没有油一样,不管理论设计有多好,也只能老老实实在家里趴窝。那数据从何而来呢?需要经过两步,数据收集数据清洗。数据清洗是一个很容易被忽视,但又必不可少的环节,而填补缺失值就是这个环节最常见的工作。

数据不完整,有缺失,我们就称之为数据集里包含有缺失值,

  • 9
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值