2.2 数据清理【斯坦福21秋季:实用机器学习中文版】

数据清理

本节课从为什么要数据清洗,并数据清洗的三个角度出发,简单介绍了数据清理。此外,借一篇博文推荐数据清洗的免费工具。
出处:https://www.bilibili.com/video/BV1kQ4y1Q7mx
参考:https://www.bilibili.com/read/cv13382013?from=note

一、思维导图
在这里插入图片描述
二、数据错误
1. 数据错误的几种情况
(1)收集到的数据与真实观测值不一致【数值丢失,数值错误,极端的值】。
(2)一个好的模型对数据错误是有容忍度的【错误的数据一样是能够收敛,但精度会比用干净的数据低一点】。
(3) 部署模型后可能会影响新收集来的数据结果,反复循环,造成危害。
2. 数据错误的类型
(1)数据中某个样本的数值不在正常的分布区间中(Outlier)
例如,有的数值过大过小,不在规定范围内。
(2)违背了规则(Rule violations)
例如,设置数据库中某一数据必须为唯一的规则,结果填写时有多个。
(3)违反了语法上或语义上的限制(Pattern violations)
例如,设置数据类型必须是美元,结果变成欧元。
三、Outlier 举例
在这里插入图片描述
四、Rule violations举例
(1)功能性依赖 x->y 映射对应
例如,一个省对应一个省会,不能对应两个,要求一一对应的规则。
(2)一阶逻辑表达式
例如,指定多个限制和规则,你填写会员档案的姓名同时必须填写手机号码。
五、Pattern violations举例
(1)基于语法的
例如,遇到eng就转换为English。
(2)基于语义的
例如,在知识图谱中,发现一个国家对应一个首都,美国对应了斯坦福,而斯坦福不是首都,则说明语义有问题。
六、数据清洗工具
https://blog.csdn.net/ArrogantT/article/details/105220184
这篇博文介绍了一个免费的数据清洗工具OpenRefine,此外还有Weka,Data Wrangler。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zz_Lambda

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值