Pandas模块 (学习笔记)

本文详细介绍了Pandas的三大核心数据结构:Series、DataFrame和Panel,以及如何操作它们。主要内容包括创建、修改和查询Series,DataFrame的列查询、添加、删除,以及行查询方法。还探讨了iloc和loc的行查询区别,以及DataFrame的append操作和自定义函数应用。
摘要由CSDN通过智能技术生成

Pandas的数据结构

Pandas包含以下三种数据结构:系列(Series),数据帧(DataFrame),面板(Panel)。
这些数据结构构建在Numpy数组之上,这意味着它们处理速度很快。

Series:

同种类型数据构成
大小不可变
数据可变

Series:一维数组,与Numpy中的一维array类似,二者与Python基本的数据结构List也很相近。
Series能保存不同种数据类型,字符串、boolean值、数字等。
Series是由相同数据类型组成的一维数组。

DataFrame:

可以由不同的数据类型构成
大小可变
数据可变

DataFrame:二维的表格型数据结构,很多功能与R中的data.frame类似,可以将DataFrame理解为Series的容器。
数据帧(DataFrame)是大小可变的数据结构,每列可以是不同的数据类型(整型、字符串、布尔值等)。

Panel :

可以由不同的数据类型构成
大小可变
数据可变

Panel :三维数组,可以理解为DataFrame的容器。
面板(Panel)可以由不同的数据类型构成的三维数据结构。
Panel是DataFrame的容器。

导包

import pandas as pd
import numpy as np

创建Series

'''
pd.Series(data,index,dtype,copy):
data:数据,可以是序列类型,可以是int
index:索引值必须是唯一的,与data的长度相同,默认为np.arange(n)
dtype:数据类型
copy:是否复制数据,默认为false
打印最左侧为索引,右侧为数据
'''
a=np.array([1,2,3,4,5])
s1=pd.Series(a,index=['a','b','c','d','e'],dtype=np.float32,copy=False)
print(s1)
'''
a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
'''

修改数据

print("-------------------")
s1['a']=100
print(s1)
print(a)
'''
a    100.0
b      2.0
c      3.0
d      4.0
e      5.0
dtype: float32
[1 2 3 4 5]#去掉数据类型就会改变[100 2 3 4 5]
'''
'''
copy=true 数据data不会改变,数据S1会改变
copy=false 数据会改变,数据S1会改变
'''

字典创建Series

#字典= {k:v} k:在Series中是index
d1 = {
   'zs':18,'ls':20}
s2=pd.Series(d1)
print(s2)
print(s2['zs'])#18

'''
zs    18
ls    20
dtype: int64
'''

查询

'''
语法:s1[index] 获取单个数据
s1[list] 获取索引中的数据
s1[index1:index2] 获取从第一个索引到第二个索引的数据,左开右闭
数字索引是左开右闭,标签索引是左开右开
'''
#可以使用默认索引’, 也可以使用自定义索引
d1 = {
   'zs':18,'ls':20,'ww':40,'gl':20}
s1=pd.Series(d1)
print(s1['zs'])#使用自定义索引 18
print(s1[0])#使用默认索引 18
print(s1[0:3])#左开右闭
'''
zs    18
ls    20
ww    40
dtype: int64
'''
print(s1[[0,2,3]])
print(s1['zs':'gl'])#左开右开
'''
zs    18
ww    40
gl    20

dtype: int64
--------------------
zs    18
ls    20
ww    40
gl    20
dtype: int64
'''

常用方法

axes 返回Series索引列表
dtype 返回Series的数据类型
emtpy 判断Series是否为空,如果为空,则返回True
values 将Series作为ndarray返回
ndim 返回基础数据的维度数,默认为1
size 返回基础数据中的元素个数
-head()- -返回前n行(观察索引值)。默认数量为5,可以传递自定义数值-
tail() 返回最后n行 (观察索引值)。默认数量为5,可以传递自定义数值
#可以使用默认索引,也可以使用自定义索引
d1 = {
   'zs':18,'ls':20,'ww':40,'gl':20}
s1 = pd.Series(d1)
print(s1.axes)
print(s1.dtype)
print(s1.empty)
print(s1.ndim)
print(s1.size)
print(s1.values)
print(s1.head(3))
print(s1.tail(3))
'''
'''
zs    18
ls    20
dtype: int64
18
[Index(['zs', 'ls', 'ww', 'gl'], dtype='object')]
int64
False
1
4
[18 20 40 20]
zs    18
ls    20
ww    40
dtype: int64
ls    20
ww    40
gl    20
dtype: int64
'''

创建DataFrame

'''
pandas.DataFrame(data,index,columns,dtype,copy)
data 支持多种数据类型 如:ndarray,series,map,lists,dict,
index 行标签,如果没有传递索引值,默认值为0,1,2,3,4
columns 列标签,如果没有传递索引值,默认值为0,1,2,3,4
dtype 每列的数据类型
copy 是否复制数据,默认值为false
'''
#数组创建
np01 = np.arange(20).reshape(4,5)
df1=pd.DataFrame(np01,index=['a','b','c','d'],\
    columns=['name','age','sex','hobbit','address'],dtype = np.float32)
print(df1)
'''
   name   age   sex  hobbit  address
a   0.0   1.0   2.0     3.0      4.0
b   5.0   6.0   7.0     8.0      9.0
c  10.0  11.0  12.0    13.0     14.0
d  15.0  16.0  17.0    18.0     19.0
'''
#列表创建
x = [1,<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值