pandas学习笔记-索引

最新推荐文章于 2024-08-06 04:33:56 发布

zhangxiaolinxin

最新推荐文章于 2024-08-06 04:33:56 发布

阅读量1.1k

点赞数 1

分类专栏：理论代码文章标签：数据挖掘

本文链接：https://blog.csdn.net/zhangxiaolinxin/article/details/105667948

版权

理论同时被 2 个专栏收录

42 篇文章 1 订阅

订阅专栏

代码

38 篇文章 0 订阅

订阅专栏

table_csv数据见开源https://github.com/datawhalechina/joyful-pandas/blob/master/第2章%20索引.ipynb
一、单级索引

loc方法、iloc方法、[]操作符
####通用原则是：行用loc，列用[]，位置用iloc，条件用bool/query，标量用at/iat
最常用的索引方法可能就是这三类，其中iloc表示位置索引，loc表示标签索引，[]也具有很大的便利性，各有特点
（a）loc方法（注意：所有在loc中使用的切片全部包含右端点！）
① 单行索引：df.loc[行索引名]
② 多行索引：df.loc[[行索引名1，行索引名2]]
df.loc[行索引名1:]
df.loc[行索引名1:行索引名2：步长]
③ 单列索引：df.loc[:,‘列索引名’]
④ 多列索引：df.loc[:,[‘列索引名1’,‘列索引名2’]]
df.loc[:,‘列索引名1’:‘列索引名2’]
⑤ 联合索引：df.loc[行索引名1:行索引名2:步长,‘列索引名1’:‘列索引名2’]
⑥ 函数式索引：df.loc[lambda x:x[‘列索引名’]‘值’]
#loc中使用的函数，传入参数就是前面的df
⑦ 布尔索引：df.loc[df[‘列索引名’].isin([‘值1’,‘值2’])]
小节：本质上说，loc中能传入的只有布尔列表和索引子集构成的列表，只要把握这个原则就很容易理解上面那些操作
（b）iloc方法（注意与loc不同，切片右端点不包含）
① 单行索引：df.iloc[第几行]
② 多行索引：df.iloc[a:b] #表示下标第a行到第b行，不包含第b行
③ 单列索引：df.iloc[:,a] #表示下标第a列，行全取
④ 多列索引：df.iloc[:,a🅱️c] #表示下标第a列到第b列，步长为c
⑤ 混合索引：df.iloc[a🅱️c,d:e:f] #表示下标第a行到第b行，步长为c,下标第d行到第e行，步长为f
⑥ 函数式索引：df.iloc[lambda x:[a]] #下标第a行
小节：iloc中接收的参数只能为整数或整数列表，不能使用布尔索引
（c） []操作符
不要在行索引为浮点时使用[]操作符，因为在Series中的浮点[]并不是进行位置比较，而是值比较，非常特殊
c.1）Series的[]操作
① 单元素索引：s[a] #使用的是索引标签a
② 多行索引：s[0:4] #使用的是绝对位置的整数切片，与元素无关，
③ 函数式索引：s[lambda x: x.index[16::-6]]
#注意使用lambda函数时，直接切片(如：s[lambda x: 16::-6])就报错，此时使用的不是绝对位置切片，而是元素切片.
④ 布尔索引：s[s>80]
c.2）DataFrame的[]操作
① 单行索引：df[1:2]
#这里非常容易写成df[‘label’]，会报错
#同Series使用绝对位置切片
#如果想要获得某一个元素，可用如下get_loc方法：row = df.index.get_loc(行索引)
② 多行索引:df[a:b] #用切片，如果是选取指定的某几行，推荐使用loc，否则很可能报错
③ 单列索引：df[‘列索引名’]
④ 多列索引：df[[‘列索引名1’,‘列索引名2’]]
⑤函数式索引：df[lambda x:[‘列索引名1’,‘列索引名2’]]
⑥ 布尔索引：df[df[‘列索引名’]‘值’]
小节：一般来说，[]操作符常用于列选择或布尔选择，尽量避免行的选择
布尔索引
a）布尔符号：’&’,’|’,’~’：分别代表和and，或or，取反not
例子：df[(df[‘Gender’]‘F’)&(df[‘Address’]‘street_2’)]
loc和[]中相应位置都能使用布尔列表选择：
df.loc[df[‘Math’]>60,(df[:8][‘Address’]==‘street_6’).values]
##如果不加values就会索引对齐发生错误，Pandas中的索引对齐是一个重要特征，很多时候非常实用
#但是若不加以留意，就会埋下隐患
b） isin方法
例子：df[df[‘Address’].isin([‘street_1’,‘street_4’])&df[‘Physics’].isin([‘A’,‘A+’])]
#上面也可以用字典方式写：
df[df[[‘Address’,‘Physics’]].isin({‘Address’:[‘street_1’,‘street_4’],‘Physics’:[‘A’,‘A+’]}).all(1)]
#all与&的思路是类似的，其中的1代表按照跨列方向判断是否全为True
快速标量索引
当只需要取一个元素时，at和iat方法能够提供更快的实现：
display(df.at[行索引名,‘列索引名’])
display(df.loc[行索引名,‘列索引名’])
display(df.iat[0,0]) #下标为0的行和为0的列所对应的值
display(df.iloc[0,0]) #下标为0的行和为0的列所对应的值
区间索引
a）利用interval_range方法
例子1：in--------pd.interval_range(start=0,end=5)
#closed参数可选’left’‘right’‘both’‘neither’，默认左开右闭
out-----IntervalIndex([(0, 1], (1, 2], (2, 3], (3, 4], (4, 5]],
closed=‘right’,
dtype=‘interval[int64]’)
例子2：in-------pd.interval_range(start=0,periods=8,freq=5)
#periods参数控制区间个数，freq控制步长
out----IntervalIndex([(0, 5], (5, 10], (10, 15], (15, 20], (20, 25], (25, 30], (30, 35], (35, 40]],
closed=‘right’,
dtype=‘interval[int64]’)
b）利用cut将数值列转为区间为元素的分类变量，例如统计数学成绩的区间情况：
例子：math_interval = pd.cut(df[‘Math’],bins=[0,40,60,80,100])
#注意，如果没有类型转换，此时并不是区间类型，而是category类型

二、多级索引
5. 创建多级索引
a）通过from_tuple或from_arrays
① 直接创建元组
在这里插入图片描述
② 利用zip创建元组

③ 通过Array创建

b）通过from_product

c）指定df中的列创建（set_index方法）
df_using_mul = df.set_index([‘Class’,‘Address’]) #以Class为一级索引，Address为二级索引
6. 多层索引切片
a）一般切片
例子1：df_using_mul.sort_index().loc[‘C_2’,‘street_5’] #C_2为第一级索引，street_5为第二级索引
例子2：df_using_mul.sort_index().loc[(‘C_2’,‘street_6’)😦‘C_3’,‘street_4’)]
三、索引设定
1 index_col参数
index_col是read_csv中的一个参数，而不是某一个方法：
pd.read_csv(‘data/table.csv’,index_col=[‘Address’,‘School’])
2 reindex和reindex_like
reindex是指重新索引，它的重要特性在于索引对齐，很多时候用于重新排序
df.reindex(index=[1101,1203,1206,2402]) #1101等均为行索引名
df.reindex(columns=[‘Height’,‘Gender’,‘Average’]) #Height等均为列名
3 set_index和reset_index
set_index：从字面意思看，就是将某些列作为索引
在这里插入图片描述
利用append参数可以将当前索引维持不变

当使用与表长相同的列作为索引（需要先转化为Series，否则报错）

reset_index方法，它的主要功能是将索引重置
默认状态直接恢复到自然数索引

四、常用索引型函数

where函数
当对条件为False的单元进行填充：

通过这种方法筛选结果和[]操作符的结果完全一致：
df.where(df[‘Gender’]==‘M’).dropna().head()
mask函数
mask函数与where功能上相反，其余完全一致，即对条件为True的单元进行填充
query函数
query函数中的布尔表达式中，下面的符号都是合法的：行列索引名、字符串、and/not/or/&/|/~/not in/in/==/!=、四则运算符
五、重复元素处理
duplicated方法
该方法返回了是否重复的布尔列表
可选参数keep默认为first，即首次出现设为不重复，若为last，则最后一次设为不重复，若为False，则所有重复项为False
例子1：df.duplicated(‘Class’,keep=‘last’)
例子2：df.duplicated(‘Class’,keep=False).head()
drop_duplicates方法
为剔除重复项，这在后面章节中的分组操作中可能是有用的，例如需要保留每组的第一个值：
参数与duplicate函数类似
例子1：df.drop_duplicates(‘Class’,keep=‘last’)
在传入多列时等价于将多列共同视作一个多级索引，比较重复项：

六、抽样函数
这里的抽样函数指的就是sample函数
a）n为样本量：df.sample(n=5)
b）frac为抽样比：df.sample(frac=0.05)
c）replace为是否放回：df.sample(n=df.shape[0],replace=True)
d）axis为抽样维度，默认为0，即抽行：df.sample(n=3,axis=1)
e）weights为样本权重，自动归一化：df.sample(n=3,weights=np.random.rand(df.shape[0]))
#以某一列为权重，这在抽样理论中很常见
df.sample(n=3,weights=df[‘Math’])