动手学数据分析Task01

学习前准备

Jupyter的用法,这个其实是task00的内容,但还是在进行task01时花费了一定的时间去了解学习。
Kaggle的注册还有数据的下载也花费了一定功夫,在这里很感谢刘楚楚小姐姐的视频,很简洁明白的让我开始了这次的学习。

对Pandas的认识

Pandas 是 Python (opens new window)的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。
Pandas在数据处理方面十分灵活,功能十分强大。
Pandas 基于 NumPy (opens new window)开发,可以与其它第三方科学计算支持库完美集成。

载入数据

除了跟着刘楚楚小姐姐的视频一步步学习和认识,在搜去资料进行课程的过程中还是有一定困难,所以这一节的学习主要时按照答案去理解并跟着视频来逐步学习。

Pandas基础

Series (opens new window)是带标签的一维数组,可存储整数、浮点数、字符串、Python 对象等类型的数据。轴标签统称为索引。调用 pd.Series 函数即可创建 Series。
DataFrame 是由多种类型的列构成的二维标签数据结构,类似于 Excel 、SQL 表,或 Series 对象构成的字典。DataFrame 是最常用的 Pandas 对象,与 Series 一样,DataFrame 支持多种类型的输入数据

删除多余列的方式

1.del df[‘columns’] #改变原始数据
2.df.drop(‘columns’,axis=1)#删除不改表原始数据,可以通过重新赋值的方式赋值该数据
3.df.drop(‘columns’,axis=1,inplace=‘True’) #改变原始数据
(百度结果)

隐藏列元素

这里与上面删除多余列的2和3有关系,在答案中也有提到。

筛选

学习链接:pandas里面按条件筛选
reset_index()函数的作用是什么?
reset_index()函数的作用是用来重置索引。就是保留原本的index。

loc方法与iloc方法的对比:
loc需要列出出来列的位置以及行的名称;而iloc只需要列出列和行的位置。

探索性数据分析

排序

sort_index() 可将索引重新排序,意味着每行数据的位置跟着索引而变化。
数据值的排序主要使用 sort_values(),数值按大小顺序,字符按字母顺序。

sort_values这个函数中by参数指向要排列的列,ascending参数指向排序的方式(升序还是降序)

运算

学习运算内容
【提醒】两个DataFrame相加后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN。

查看数据基本统计信息

describe()函数就是返回这两个核心数据结构的统计变量。其目的在于观察这一系列数据的范围、大小、波动趋势等等,为后面的模型选择打下基础。
缺失值由NaN补上,如果为NaN,说明此列的信息不可以用这个统计变量进行统计的。注意,数值列和字母列是不一样的。

统计值变量说明:

count:数量统计,此列共有多少有效值
unipue:不同的值有多少个
std:标准差
min:最小值
25%:四分之一分位数
50%:二分之一分位数
75%:四分之三分位数
max:最大值
mean:均值
————————————————
版权声明:本文为CSDN博主「程序员在旅途」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_24754061/article/details/103738513

总结

第一章的学习主要是对数据进行了初步统计查看,对于Pandas的入门还是比较简单,能够一步一步的跟着课程去做,能够大致理解该如果去处理数据,筛选出自己需要的数据,但是在思考如何建立数据分析这一块以及对数据处理后的结果的思考还是需要再深入地进行学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值