Hands-on data analysis 动手学数据分析Task2

这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上泰坦尼克的任务,实战数据分析全流程。
这里有两份资料需要大家准备:
z图书《Python for Data Analysis》第六章和 baidu.com &
google.com(善用搜索引擎)
本次学习由开源学习组织Datawhale发起

在前面一章里的学习内容主要是对数据分析的基础知识做一个梳理,初步了解数据分析的一些操作,主要做了数据的各个角度的观察。而在Task2中,主要是做数据分析的流程性学习,主要是包括了数据清洗以及数据的特征处理,数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。

第一节、对在文件中数据缺失的处理方法的理解

我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本节学习的内容就是对缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。在这里插入图片描述

我们可以看见在这文件中的数据并不是每位乘客的信息都完整,例如许多乘客的客舱列都出现了NaN,并且缺失值常常不止发生在一个数据类型上,那么我们在对数据进行分析前就要对其进行缺失值的观察与处理。

对缺失值进行处理

在这里插入图片描述

在查看数据缺失值处理时,思考问题:检索空缺值用np.nan,None以及.isnull()哪个更好,这是为什么? 查询资料后发现:np.nan()和pd.isnull()都可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,np.nan()多用于单个值的检验,pd.isnull()用于对一个DataFrame或Series(整体)的检验。 并且课程中也提到数值列读取数据后,空缺值的数据类型为float64所以用None一般索引不到,比较的时候最好用np.nan。

第二节、数据重构1

在这一节,我们要做的是数据重构,数据重构依旧属于数据理解(准备)的范围。个人理解这一步是对数据进行分析的正式开始。
在这里插入图片描述
在载入数据后,对其进行比较、观察其数据间的关系,并且将相应的数据横向制表,为下一部的第三节做准备。

第三节、数据重构2

groupby机制

groupby:分割,应用和组合。groupby经常只需一行代码,就可以计算每组的和,均值,计数,最小值以及其他累计值。它返回一个DataFrameGroupby对象,你可以将它看成是一个特殊的DataFrame对象,里面隐藏着若干组数据。

在这里插入图片描述
可以看见接下去的几个任务都是对人数、男女平均票价、男女存活人数进行归类分析,并统计返回出结果。
在以上的基础上,为了让得出的数据更加直观,可利用,我们就需要对得出的分析结果进行下一步的操作——数据可视化

小结

Task2的学习发现与前面相比多了对数据的操作行而不是整体的整合,改变,数据正在逐步碎化又被归类,我们好似用一双神奇的手,敲除无用的数据,敲出正确的分析。
今天的堂吃完了,炎炎夏日,明天来一块冰西瓜吧!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值