#%%
# CY3761 | 2022-01-05 09:25
#%%
# 描述项
#%%
# 导入项
import numpy as np
import pandas as pd
#%%
def printData(o):
oItems = dict(dtype=None,dtypes=None,shape=None,size=None,index=None,columns=None)
for (k,v) in oItems.items():
try:
oItems[k] = eval(f'o.{k}')
except (Exception, BaseException) as e:
pass
print(type(o), '\n', oItems)
#%% md
# 数据选择
#%% md
+ 和 `numpy` 的花式索引类似
#%%
# 假设是一个学校的学生考试成绩
a01 = pd.DataFrame(
data=np.random.randint(0, 150, size=(1000, 3)),
columns=tuple('PEM')
)
a01
#%% md
## 获取列
#%%
# 只想获得 P 学科成绩
# a01['P'] # (方式一)
a01.P # (方式二)
#%%
# 获取2个或以上成绩
a01[['P','M']]
#%%
# 2个中括号 (PYC内显示没区别, 但数据类型是有区别)
b01 = a01['E'] # Series, shape: (1000,)
printData(b01)
b01
#%%
c01 = a01[['E']]
printData(c01) # DataFrame, shape: (1000, 1)
c01
#%% md
## 获取行
#%%
a02 = pd.DataFrame(
data=np.random.randint(0,150,size=(5,3)),
index=tuple('ABCDE'),
columns=tuple('PME')
)
a02
#%%
a02.loc['A'] # 获取A学生的各科成绩 学生标识变头, 各科目变行
#%%
a02.loc.A # 不能这样
#%%
# 获取2行数据或多行
a02.loc[['E', 'D', 'B', 'A', 'C']]
#%%
# 数字索引获取
a02.iloc[[0,4,2,1,3]] # 数据进行过滤或者排序后显示效果
#%% md
## 获取具体数值
#%%
a02.M['B'] # B同学的数学成绩 | 先获取科目再获取学生 | 先列后行
#%%
a02.loc['B'].M # B同学的数学成绩 | 先获学生目再获取科目 | 先行后列
#%%
a02.loc['B','M'] # B同学的数学成绩 | 先获学生目再获取科目 | 先行后列
#%%
a02.iloc[1, 1] # B同学的数学成绩 | 先获学生目再获取科目 | 先行后列 | 通过数字获取
#%%
a02.iloc[1, 'M'] # 不能这样, 必须都是数字
#%%
a02['M','B'] # 不能这样, 必须分开写
#%%
a02['B':'D'] # 切片获取 从 B到D 这是切行
#%%
a02.loc['B':'D'] # 切片获取 从 B到D 这是切行 (这也能切)
#%%
a02.loc['B':'D', 'M'] # 一科
#%%
a02.loc['B':'D', 'M':] # 从数学开始切到最后
#%%
a02['B':'D', 'M':] # 这样不行
#%%
a02.iloc[1:4, 1:] # 0A 1B 2C 3D 4E | 数字不包含尾
#%%
printData(a02)
a02.iloc[1:4, 1::-1] # 列倒着取
#%%
a02.iloc[1:4, 0:-1] # 取一头一尾
#%% md
## 布尔索引
#%%
cond_03 = a01.P == 150
a01[cond_03] # 没有 True, 因为 范围是 0~150但不包括150
#%%
cond_03 = a01.P == 149
a01[cond_03] # 这就有
#%%
cond_03_P = a01.P >= 130
cond_03_M = a01.M >= 130
cond_03 = cond_03_P & cond_03_M # 并且
a01[cond_03]
#%%
PY-pandas | 数据选择
最新推荐文章于 2024-08-14 18:22:26 发布