PY-pandas | 数据选择

最新推荐文章于 2024-08-14 18:22:26 发布

CY3761

最新推荐文章于 2024-08-14 18:22:26 发布

阅读量695

点赞数 1

分类专栏： PY-pandas 文章标签： python 数据挖掘机器学习

本文链接：https://blog.csdn.net/weixin_63272654/article/details/122324164

版权

PY-pandas 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

#%%
# CY3761 | 2022-01-05 09:25
#%%
# 描述项
#%%
# 导入项
import numpy as np
import pandas as pd
#%%
def printData(o):
    oItems = dict(dtype=None,dtypes=None,shape=None,size=None,index=None,columns=None)

    for (k,v) in oItems.items():
        try:
            oItems[k] = eval(f'o.{k}')
        except (Exception, BaseException) as e:
            pass

    print(type(o), '\n', oItems)
#%% md
# 数据选择
#%% md
+ 和 `numpy` 的花式索引类似
#%%
# 假设是一个学校的学生考试成绩
a01 = pd.DataFrame(
    data=np.random.randint(0, 150, size=(1000, 3)),
    columns=tuple('PEM')
)
a01
#%% md
## 获取列
#%%
# 只想获得 P 学科成绩
# a01['P'] # (方式一)
a01.P  # (方式二)
#%%
# 获取2个或以上成绩
a01[['P','M']]
#%%
# 2个中括号 (PYC内显示没区别, 但数据类型是有区别)
b01 = a01['E']  # Series, shape: (1000,)
printData(b01)
b01
#%%
c01 = a01[['E']]
printData(c01) # DataFrame, shape: (1000, 1)
c01
#%% md
## 获取行
#%%
a02 = pd.DataFrame(
    data=np.random.randint(0,150,size=(5,3)),
    index=tuple('ABCDE'),
    columns=tuple('PME')
)
a02
#%%
a02.loc['A']  # 获取A学生的各科成绩 学生标识变头, 各科目变行
#%%
a02.loc.A # 不能这样
#%%
# 获取2行数据或多行
a02.loc[['E', 'D', 'B', 'A', 'C']]
#%%
# 数字索引获取
a02.iloc[[0,4,2,1,3]]  # 数据进行过滤或者排序后显示效果
#%% md
## 获取具体数值
#%%
a02.M['B']  # B同学的数学成绩 | 先获取科目再获取学生 | 先列后行
#%%
a02.loc['B'].M # B同学的数学成绩 | 先获学生目再获取科目 | 先行后列
#%%
a02.loc['B','M']  # B同学的数学成绩 | 先获学生目再获取科目 | 先行后列
#%%
a02.iloc[1, 1]  #  B同学的数学成绩 | 先获学生目再获取科目 | 先行后列 | 通过数字获取
#%%
a02.iloc[1, 'M']  #  不能这样, 必须都是数字
#%%
a02['M','B']  # 不能这样, 必须分开写
#%%
a02['B':'D']  # 切片获取 从 B到D 这是切行
#%%
a02.loc['B':'D'] # 切片获取 从 B到D 这是切行 (这也能切)
#%%
a02.loc['B':'D', 'M'] # 一科
#%%
a02.loc['B':'D', 'M':] # 从数学开始切到最后
#%%
a02['B':'D', 'M':]  # 这样不行
#%%
a02.iloc[1:4, 1:] # 0A 1B 2C 3D 4E | 数字不包含尾
#%%
printData(a02)
a02.iloc[1:4, 1::-1]  # 列倒着取
#%%
a02.iloc[1:4, 0:-1] # 取一头一尾
#%% md
## 布尔索引
#%%
cond_03 = a01.P == 150
a01[cond_03] # 没有 True, 因为 范围是 0~150但不包括150
#%%
cond_03 = a01.P == 149
a01[cond_03] # 这就有
#%%
cond_03_P = a01.P >= 130
cond_03_M = a01.M >= 130
cond_03 = cond_03_P & cond_03_M # 并且
a01[cond_03]
#%%