Hands-on data analysis 动手学数据分析Task2

最新推荐文章于 2023-03-10 17:51:51 发布

miskirito

最新推荐文章于 2023-03-10 17:51:51 发布

阅读量159

点赞数

分类专栏：自主学习 Datawhale组队学习笔记文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_57171836/article/details/118771757

版权

自主学习同时被 2 个专栏收录

29 篇文章 2 订阅

订阅专栏

Datawhale组队学习笔记

27 篇文章 0 订阅

订阅专栏

这门课程得主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后，我们接下来我们要正式的开始数据分析的实战教学，完成kaggle上泰坦尼克的任务，实战数据分析全流程。
这里有两份资料需要大家准备：
z图书《Python for Data Analysis》第六章和 baidu.com &
google.com（善用搜索引擎）
本次学习由开源学习组织Datawhale发起

task2数据清洗及特征处理

在前面一章里的学习内容主要是对数据分析的基础知识做一个梳理，初步了解数据分析的一些操作，主要做了数据的各个角度的观察。而在Task2中，主要是做数据分析的流程性学习，主要是包括了数据清洗以及数据的特征处理，数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。

第一节、对在文件中数据缺失的处理方法的理解

我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本节学习的内容就是对缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的样子。在这里插入图片描述

我们可以看见在这文件中的数据并不是每位乘客的信息都完整，例如许多乘客的客舱列都出现了NaN，并且缺失值常常不止发生在一个数据类型上，那么我们在对数据进行分析前就要对其进行缺失值的观察与处理。

对缺失值进行处理

在这里插入图片描述

在查看数据缺失值处理时，思考问题：检索空缺值用np.nan,None以及.isnull()哪个更好，这是为什么？ 查询资料后发现：np.nan()和pd.isnull()都可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中，np.nan()多用于单个值的检验，pd.isnull()用于对一个DataFrame或Series（整体）的检验。并且课程中也提到数值列读取数据后，空缺值的数据类型为float64所以用None一般索引不到，比较的时候最好用np.nan。