pandas 之index 扫盲

最新推荐文章于 2024-07-15 13:31:17 发布

波波虾遁地兽

最新推荐文章于 2024-07-15 13:31:17 发布

阅读量2.7k

点赞数 2

分类专栏：练手文章标签： pandas

练手专栏收录该内容

19 篇文章 0 订阅

订阅专栏

转载https://blog.csdn.net/claroja/article/details/72930594

pandas 之index 扫盲

pandas的基本概念 index 索引

数据清理和整理时常要用到

pandas的对索引（正常从0开始）主要是7、8个函数

DataFrame.rename
DataFrame.rename_axis
DataFrame.reindex
DataFrame.reindex_axis
DataFrame.reset_index、DataFrame.set_index
pandas.Index.reindex
pandas.Index.set_names

其中，1、2是对索引/列的更改，索引/列的值按指定的字典(或其他)一一对应变化
3、4是增加、减少、筛选过滤索引(或列)，如果搜索或列还存在，就按照原来的值，如果不存在，就按指定的填充方式填充数据或填空值np.NaN
5,reset_index是重新赋值索引，从0开始，set_index是指定某列(某些列)为索引，值得一提的是，groupby函数的作用之一就是按groupby的列字段，进行了set_index，所以为了数据整齐，往往groupby函数之后，就会接一个reset_index重新赋值索引。
1-5都是返回数据框
6、7是返回索引

下面一个个来之前，可以讲下2，4带axis和1，3不带axis函数的区别，
其实没什么区别，基本上用2，4写出来的代码可以1，3等价的加出来

1，3不带axis函数在函数函数中必须指明index或columns中的至少一个，也可以两个都指明，然后再写上index或columns中值的更改后的对应关系，而2，4带axis函数在函数参数中不须指明index或columns，只需要写上index或columns中值的更改后的对应关系，并用axis=0表示，更改的是index;用axis=1表示，更改的是columns;
另外，2，4带axis函数好像不能同时改变index或columns，这点不确定对不对。

rename

1.DataFrame.rename(index=None, columns=None, **kwargs)

参数

index, columns : scalar, list-like, dict-like or function, optional，标量，形如列表或字典或函数但(Function/dict值必须是一对一)
copy : boolean, default True(是否复制底层函数，默认复制)
inplace : boolean, default False(是否替换原对象，默认不替换)
level:int or level name, default None(多层索引时使用)

返回DataFrame

 In [1]: import pandas as pd
   ...: df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
   ...: df
Out[1]: 
   A  B
0  1  4
1  2  5
2  3  6
# df 本身并没有变没有被替换

In [2]: df.rename(index={0:3,1:4,2:5}, columns={"A": "a", "C": "c"})
Out[2]: 
   a  B
3  1  4
4  2  5
5  3  6
# df 本身并没有变没有被替换

rename_axis

DataFrame.rename_axis(mapper, axis=0, copy=True, inplace=False)

参数

mapper : scalar, list-like, dict-like or function, optional
axis : int or string, default 0
copy : boolean, default True
inplace : boolean, default False

返回DataFrame

In [1]: import pandas as pd
   ...: df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
   ...: df
Out[1]: 
   A  B
0  1  4
1  2  5
2  3  6

In [2]: df.rename_axis({0:3,1:4,2:5})
Out[2]: 
   A  B
3  1  4
4  2  5
5  3  6

In [3]: df.rename_axis({"A": "a", "C": "c"},axis=1)
Out[3]: 
   a  B
0  1  4
1  2  5
2  3  6

reindex()

DataFrame.reindex(index=None, columns=None, **kwargs)
增加、减少、筛选过滤索引(或列)，如果搜索或列还存在，就按照原来的值，如果不存在，就按指定的填充方式填充数据或填空值

参数

index, columns : array-like, optional (can be specified in order, or as
method : {None, ‘backfill’/’bfill’, ‘pad’/’ffill’, ‘nearest’}, optional(填充设置)
copy : boolean, default True
level : int or name
fill_value : scalar, default np.NaN
limit : int, default None
tolerance : optional

返回DataFrame

import pandas as pd
df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
df
Out[1]: 
   A  B
0  1  4
1  2  5
2  3  6

df.reindex(index=(1,2,3))
Out[2]: 
     A    B
1  2.0  5.0
2  3.0  6.0
3  NaN  NaN

df.reindex(columns=("B","C"))
Out[3]: 
   B   C
0  4 NaN
1  5 NaN
2  6 NaN
reindex没有inlace参数，本身不支持替换，想替换就df=df.reindex(columns=("B","C"))

reindex_axis

DataFrame.reindex_axis(labels, axis=0, method=None, level=None, copy=True, limit=None, fill_value=nan)

参数

labels : array-like
axis : {0 or ‘index’, 1 or ‘columns’}
method : {None, ‘backfill’/’bfill’, ‘pad’/’ffill’, ‘nearest’}, optional(填充设置)
copy : boolean, default True
level : int or name
limit : int, default None
tolerance : optional

返回DataFrame

In [1]: import pandas as pd
   ...: df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
   ...: df
Out[1]: 
   A  B
0  1  4
1  2  5
2  3  6

In [2]: df.reindex_axis((1,2,3))
Out[2]: 
     A    B
1  2.0  5.0
2  3.0  6.0
3  NaN  NaN

In [3]: df.reindex_axis(("B","C"),axis=1)
Out[3]: 
   B   C
0  4 NaN
1  5 NaN
2  6 NaN

reset_index

DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill=’’)
函数作用是重新赋值索引，从0开始，和之前的索引没什么关系了，

参数

level : int, str, tuple, or list, default None
drop : boolean, default False是否抛弃原索引，否则还原为普通列，
inplace : boolean, default False是否替换原df
col_level : int or str, default 0
col_fill : object, default ‘’

返回DataFrame

In [1]: import pandas as pd
   ...: df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
   ...: df=df.reindex_axis((1,2,3))
   ...: df
Out[1]: 
     A    B
1  2.0  5.0
2  3.0  6.0
3  NaN  NaN

In [2]: df.reset_index()
Out[2]: 
   index    A    B
0      1  2.0  5.0
1      2  3.0  6.0
2      3  NaN  NaN

reset_index在数据清理，整理中的意义，
把通过groupby函数分组后优点乱的数据(groupby的字段变成了索引)变的更加整齐，如groupby后的数据为
coupon_id data_received
user——ID
14394081 1078 20160319
110025 20160528
58945 20160623
18326241 7630 20160429
20292323 15462 20160129
11737 20160519

通过reset_index后变为整齐的

 user——ID        coupon_id    data_received
 14394081         1078            20160319
 14394081         110025          20160528
 14394081         58945           20160623
 18326241         7630            20160429
 20292323         15462           20160129
 20292323         11737           20160519