2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】

探索性数据分析

本节课以房屋售卖的数据为例,结合代码进行分析。
出处:https://www.bilibili.com/video/BV1Xh411p7M9?spm_id_from=333.999.0.0
参考:https://www.bilibili.com/read/cv13353927?from=note
数据集:https://c.d2l.ai/stanford-cs329p/assignments.html#assignment-1

一、导入相关包
在这里插入图片描述

  • numpy:python中做数据分析常用的包;
  • pandas:也是用于数据分析,擅长处理表,数据没那么大要放入内存中,这将是首选;
  • matplotlib.pyplot:源自matlab的画图工具;
  • seaborn:基于matplotlib,提供更多的画法。

二、读取数据
在这里插入图片描述
csv文件存下来相对比较大,可以先压缩成一个zip,主流的读取文件都可以从压缩文件中读取。建议存成压缩文件,这种读取方式在传输存储比较好,甚至还会比直接文本文件效果还要好。
三、数据简单处理
1.运用shape()函数观察数据集的大小
在这里插入图片描述
2.运用head()函数打印前几行信息在这里插入图片描述
3.计算每一列缺失的数据行数,如果大于总行数的30%,则删去,以此简化数据
在这里插入图片描述
4. 函数inplace()的作用是将要去掉的列给改写掉(直接对文件中的列进行修改),节省内存。
(注意,这个操作只能跑一次,第二次的时候列已经被删掉了,不能再次运行了,会报错。)
在这里插入图片描述
5.查看一下数据类型
在这里插入图片描述
6.把错误的数据类型纠正一下,然后全部转为float类型
在这里插入图片描述
7.函数describe()描述一下这个数据,初步判断一下有没有噪音
在这里插入图片描述
8.根据实际情况,对数据简单处理一下,删除掉错误的行
在这里插入图片描述
四、数据的可视化
1.不同颜色是不同类别,中间的横线表示均值,boxplot可以比较直观的看到不同分布之间的对比。
在这里插入图片描述
2.观察每个特征之间的关系(协方差)
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zz_Lambda

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值