python-Pandas库

Pandas是python数据处理重要的一个第三方库。

import pandas as pd

一、Pandas库入门

1.Pandas库数据类型

两个数据类型:SeriesDataFrame
基于上述数据类型的各类操作
基本操作、运算操作、特征类操作、关联类操作

Pandas库和Numpy库的区别:

NumpyPandas
基础数据类型扩展数据类型
关注数据的结构表达关注数据的应用表达
维度:数据间的关系维度:数据和索引间的关系
1.1Pandas的Series类型

Series类型由一组数据及与之相关的数据索引组成。
在这里插入图片描述(1)Series类型的创建

列表创建,index与列表元素个数一致:

自动索引:

在这里插入图片描述自定义索引:

在这里插入图片描述
从标量值创建,index表达Series类型的尺寸:

在这里插入图片描述
从字典类型创建,键值对中的“键”是索引,index从字典中进行选择操作

在这里插入图片描述

在这里插入图片描述
从ndarry类型创建,索引和数据都可以通过ndarry类型创建

在这里插入图片描述
其他函数创建,range()函数等。

(2)Series类型的基本操作

Series类型包括index和values两部分。

在这里插入图片描述
在这里插入图片描述
Series类型的操作类似ndarry类型。

  1. 索引方法相同,采用[]
  2. Numpy中运算和操作可用于Series类型。
  3. 可以通过自定义索引的列表进行切片。
  4. 可以通过自动索引进行切片,如果存在自定义索引,则一同被切片。

在这里插入图片描述
Series类型的操作类似Python字典类型。

  1. 通过自定义索引访问
  2. 保留字in操作
  3. 使用.get()方法

在这里插入图片描述
Series类型对齐问题:

Series+Series

在这里插入图片描述
Series类型在运算中会自动对齐不同索引的数据

Series类型的name属性

Series对象和索引都可以有一个名字,存储在属性.name中

在这里插入图片描述Series类型的修改

Series对象可以随时修改并立即生效

在这里插入图片描述
Series是一维带“标签”数组

index_0 ->data_a

Series基本操作类似ndarry和字典,根据索引对齐。

1.2Pandas的DataFrame类型

DataFrame类型由共用相同索引的一组列组成。

在这里插入图片描述
在这里插入图片描述
DataFrame是一个表格型的数据类型,每列值类型可以不同。

DataFrame既有行索引、也有列索引。

DataFrame常用于表达二维数据,也可以表达多维数据。

(1)DataFrame类型的创建

二维ndarray对象:

在这里插入图片描述

由一维ndarray、列表、字典、元组或Series构成的字典

从一维ndarray对象字典创建

在这里插入图片描述
从列表类型的字典创建

在这里插入图片描述
DataFrame是二维带“标签”数组
在这里插入图片描述

DataFrame基本操作类似Series,依据行列索引。

2.Pandas库的数据类型操作

如何改变Series和DataFrame对象?

(1)增加或重排:重新索引

reindex()能够改变或重排Series和DataFrame索引

在这里插入图片描述

.reindex(index=None,columns=None,…)的参数

在这里插入图片描述

在这里插入图片描述

索引类型

在这里插入图片描述
Series和DataFrame的索引是Index类型

Index对象是不可修改类型

索引类型常用方法

在这里插入图片描述
索引类型的使用:

在这里插入图片描述

在这里插入图片描述(2)删除:drop

.drop()能够删除Series和DataFrame指定行或列索引

在这里插入图片描述
在这里插入图片描述

3.Pandas库的数据类型运算

(1)算数运算法则

算数运算根据行列索引,补齐后运算,运算默认产生浮点数。

补齐时缺项填充NaN

二维和一维、一维和零维件为广播运算

采用+—*/符号进行的二元运算产生新的对象

在这里插入图片描述
在这里插入图片描述
注:自动补齐,缺项补NaN

(2)方法型操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

不同维度间为广播运算,一维Series默认在轴1参与运算。

在这里插入图片描述
在这里插入图片描述

使用运算方法可以令一维Series参与轴0运算

在这里插入图片描述
在这里插入图片描述

(3)比较运算法则

比较运算只能比较相同索引的元素,不进行补齐

二维和一维、一维和零维间为广播运算

采用>、<、>=、<=、==、!=等符号进行的二元运算产生布尔对象

同维度运算,尺寸一致

在这里插入图片描述
在这里插入图片描述
不同维度,广播运算,默认在1轴

在这里插入图片描述
在这里插入图片描述

总结:

  1. Series=索引+一维数据
  2. DataFrame=行列索引+二维数据
  3. 理解数据类型与索引的关系,操作索引即操作数据。
  4. 重新索引、数据删除、算数运算、比较运算。
  5. 像对待单一数据一样对待Series和DataFrame对象。

二、Pandas数据的特征分析

1.数据的排序

.sort_index()方法在指定轴上根据索引进行排序,默认升序。

.sort_index(axis=0,ascending=True)

在这里插入图片描述
.sort_values()方法在指定轴上根据数值进行排序,默认升序。

Series.sort_values(axis=0,ascending=True)

DataFrame.sort_values(by,axis=0,ascending=True)

by:axis轴上的某个索引或索引列表

在这里插入图片描述
在这里插入图片描述
注:NaN统一放到排序末尾

2.Pandas统计数据分析

适用于Series和DataFrame类型:

在这里插入图片描述
适用于Series类型:

在这里插入图片描述

一个方法涵盖所有:

在这里插入图片描述
在这里插入图片描述
看一下.describe()的类型:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

3.Pandas累计统计分析

适用于Series和DataFrame类型:

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

适用于Series和DataFrame类型,滚动计算(窗口计算):

在这里插入图片描述
在这里插入图片描述

4.数据的相关分析

相关性:
正相关、负相关、不相关

衡量相关性的方法:

(1)协方差:

在这里插入图片描述
在这里插入图片描述

(2)Pearson相关系数

在这里插入图片描述
r的取值范围[-1,1]

r的绝对值:

0.8-1.0极强相关
0.6-0.8强相关
0.4-0.6中等程度相关
0.2-0.4弱相关
0.0-0.2极弱相关或无相关

适用于Series和DataFrame类型:

在这里插入图片描述

实例:房价增幅与M2增幅的相关性

在这里插入图片描述

总结:

在这里插入图片描述

  • 13
    点赞
  • 77
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值