Pandas模块（学习笔记）

最新推荐文章于 2024-02-01 16:24:54 发布

发量**

最新推荐文章于 2024-02-01 16:24:54 发布

阅读量2.2k

点赞数

文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/wxwzy1314/article/details/121775710

版权

本文详细介绍了Pandas的三大核心数据结构：Series、DataFrame和Panel，以及如何操作它们。主要内容包括创建、修改和查询Series，DataFrame的列查询、添加、删除，以及行查询方法。还探讨了iloc和loc的行查询区别，以及DataFrame的append操作和自定义函数应用。

摘要由CSDN通过智能技术生成

Pandas的数据结构

Pandas包含以下三种数据结构：系列(Series)，数据帧(DataFrame)，面板(Panel)。
这些数据结构构建在Numpy数组之上，这意味着它们处理速度很快。

Series：

同种类型数据构成
大小不可变
数据可变

Series：一维数组，与Numpy中的一维array类似，二者与Python基本的数据结构List也很相近。
Series能保存不同种数据类型，字符串、boolean值、数字等。
Series是由相同数据类型组成的一维数组。

DataFrame：

可以由不同的数据类型构成
大小可变
数据可变

DataFrame：二维的表格型数据结构，很多功能与R中的data.frame类似，可以将DataFrame理解为Series的容器。
数据帧(DataFrame)是大小可变的数据结构，每列可以是不同的数据类型（整型、字符串、布尔值等）。

Panel ：

可以由不同的数据类型构成
大小可变
数据可变

Panel ：三维数组，可以理解为DataFrame的容器。
面板(Panel)可以由不同的数据类型构成的三维数据结构。
Panel是DataFrame的容器。

导包

import pandas as pd
import numpy as np

创建Series

'''
pd.Series(data,index,dtype,copy):
data:数据，可以是序列类型，可以是int
index：索引值必须是唯一的，与data的长度相同，默认为np.arange(n)
dtype:数据类型
copy：是否复制数据，默认为false
打印最左侧为索引，右侧为数据
'''

a=np.array([1,2,3,4,5])
s1=pd.Series(a,index=['a','b','c','d','e'],dtype=np.float32,copy=False)
print(s1)
'''
a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
'''

修改数据

print("-------------------")
s1['a']=100
print(s1)
print(a)
'''
a    100.0
b      2.0
c      3.0
d      4.0
e      5.0
dtype: float32
[1 2 3 4 5]#去掉数据类型就会改变[100 2 3 4 5]
'''
'''
copy=true 数据data不会改变，数据S1会改变
copy=false 数据会改变，数据S1会改变
'''

字典创建Series

#字典= {k:v} k:在Series中是index
d1 = {
   'zs':18,'ls':20}
s2=pd.Series(d1)
print(s2)
print(s2['zs'])#18

'''
zs    18
ls    20
dtype: int64
'''

查询

'''
语法：s1[index] 获取单个数据
s1[list] 获取索引中的数据
s1[index1:index2] 获取从第一个索引到第二个索引的数据，左开右闭
数字索引是左开右闭，标签索引是左开右开
'''
#可以使用默认索引’， 也可以使用自定义索引
d1 = {
   'zs':18,'ls':20,'ww':40,'gl':20}
s1=pd.Series(d1)
print(s1['zs'])#使用自定义索引 18
print(s1[0])#使用默认索引 18
print(s1[0:3])#左开右闭
'''
zs    18
ls    20
ww    40
dtype: int64
'''
print(s1[[0,2,3]])
print(s1['zs':'gl'])#左开右开
'''
zs    18
ww    40
gl    20

dtype: int64
--------------------
zs    18
ls    20
ww    40
gl    20
dtype: int64
'''

常用方法

axes	返回Series索引列表
dtype	返回Series的数据类型
emtpy	判断Series是否为空，如果为空，则返回True
values	将Series作为ndarray返回
ndim	返回基础数据的维度数，默认为1
size	返回基础数据中的元素个数
-head()-	-返回前n行（观察索引值）。默认数量为5，可以传递自定义数值-
tail()	返回最后n行（观察索引值）。默认数量为5，可以传递自定义数值

#可以使用默认索引，也可以使用自定义索引
d1 = {
   'zs':18,'ls':20,'ww':40,'gl':20}
s1 = pd.Series(d1)
print(s1.axes)
print(s1.dtype)
print(s1.empty)
print(s1.ndim)
print(s1.size)
print(s1.values)
print(s1.head(3))
print(s1.tail(3))
'''
'''
zs    18
ls    20
dtype: int64
18
[Index(['zs', 'ls', 'ww', 'gl'], dtype='object')]
int64
False
1
4
[18 20 40 20]
zs    18
ls    20
ww    40
dtype: int64
ls    20
ww    40
gl    20
dtype: int64
'''

创建DataFrame

'''
pandas.DataFrame(data,index,columns,dtype,copy)
data 支持多种数据类型 如：ndarray，series，map，lists，dict，
index 行标签，如果没有传递索引值，默认值为0，1，2，3，4
columns 列标签，如果没有传递索引值，默认值为0，1，2，3，4
dtype 每列的数据类型
copy 是否复制数据，默认值为false
'''

#数组创建
np01 = np.arange(20).reshape(4,5)
df1=pd.DataFrame(np01,index=['a','b','c','d'],\
    columns=['name','age','sex','hobbit','address'],dtype = np.float32)
print(df1)
'''
   name   age   sex  hobbit  address
a   0.0   1.0   2.0     3.0      4.0
b   5.0   6.0   7.0     8.0      9.0
c  10.0  11.0  12.0    13.0     14.0
d  15.0  16.0  17.0    18.0     19.0
'''
#列表创建
x = [1,<