Kr的pandas技巧笔记

置顶

顾 Kairey

已于 2022-11-01 09:36:19 修改

阅读量1.5k

点赞数 1

分类专栏： Python学习经验文章标签： python

于 2022-04-04 00:38:24 首次发布

本文链接：https://blog.csdn.net/weixin_43892258/article/details/123937410

版权

最近在做一个数据集的可视化项目，又捡起了pandas和python，这里把实际用到的技巧干货写下来，防止忘记再次去网上各种查和看documentation，同时也分享给大家.

1. 找出nan项

DataFrame.isnull()

返回一个大小和 store_items 一样的布尔型 DataFrame，并用 True 表示具有 NaN 值的元素，用 False 表示非 NaN 值的元素。
2. 统计nan项数量

Series.isnull().sum()

3. 看单个元素是不是nan：因为pandas里面的nan都指向np.nan这样一个object，np.nan本身的type是float。python中is函数的作用是比较object的id

element is np.nan

4. unique() 和 nunique() 用来获取去除了重复值的列（或去重列中的元素数目）
注意：unique是series的方法，如果想在dataframe中实现类似功能，使用df.drop_duplicates(subset=[‘col_name’],keep=‘last’)
keep='last’的意思就是保留重复行里面的最后一行。subset的意思是，按照这一列的重复情况来去重。
顺便一提，df.duplicated(subset=[‘col_name’],keep=‘last’)方法是返回除了你要keep的那一行都为True。要实现和drop_duplicates一样的切片功能可以：df[~df.duplicated(subset=[‘col_name’],keep=‘last’)]

>>> df['generation'].unique()
array(['Generation X', 'Silent', 'G.I. Generation', 'Boomers',
       'Millenials', 'Generation Z'], dtype=object)
>>> df['country'].nunique()
101

对每个元素应用函数，function中应该有return

DataFrame/Series.apply(function)

5. #%%是spyder里面代码块的标识

6. Pandas里的assign方法
assign方法可以直接给DataFrame添加一列，或者替换掉名字相同的列；
特别注意在assign里面使用lambda函数时，lambda函数的变量是该DataFrame

DataFrame.assign(column_name=[])

7. Pandas里的map apply applymap方法
区别：

map是series的方法，传入参数只有单个元素
apply是DataFrame的方法，可以传入多个参数，第一个传入参数是整列或整行（也可以series使用，参数是单个元素）
applymap作用于DataFrame，可以传入多个参数，第一个传入参数是单个元素
使用建议：避免混淆，不要对Series使用apply，记住带map的参数是单个元素，apply是整列，但如果：func需要多个参数，则Series必须使用apply
示例，并且其他传入参数必须为元组，元组中至少一个逗号，给func传入的第一个参数是Series中的元素。

   a 
0  1 
1  2 
2  3 
def add_num(a,b):
    return a+b
b = a['a'].apply(add_num, args=(3,))
     a
0    4
1    5
2    6

8. Pandas怎样替换数值
可以使用replace方法，也可以用map，apply等方法；
区别在于处理没有映射到的value时前者返回原value，后者返回NaN，并且速度更快。
记住两者区别，以及用字典映射来替换就可以了。

data.replace({
   "gender":{
   '1':'男', '0':'女'}})
data['gender']=data['gender'].map({
   '1':'男', '0':'女'})

9. Pandas根据条件来进行替换
笔者遇到了一个情况，将b列中的NaN值根据a和d的对应的关系来替换，具体而言就是把b列的NaN转化为d列中的9，因为9和a列里的3是对应关系。
也就是说，将一列中的特定元素根据另外两列的对应关系进行替换

   a    b    c  d
0  1  4.0  7.0  1
1  2  5.0  8.0  2
2  3  NaN  NaN  9

这一步基于上面替换数值的方法，可以使用replace或者map方法来做，参数为dict。
首先把对应关系转化为字典，再把b列中的NaN变成a列中对应得值，最后根据a列与d列的对应关系，把b列的值转化。
为什么这里要用map，不用replace，因为map没有找到返回的是NaN，而replace返回a列中的原值，我们并不需要。
这样的另一好处是，原index不会改变。

cond = df.b.isnull()
replacement = dict(zip(df.a,df.d))
df.loc[cond,'b'] = df.loc[cond,'a'].map(replacement)

10. Pandas里面分列的方法
如果一列里面的元素是str，那么用str方法来切分

df['name'].str.split('；',expand=True

如果是元组，那么使用apply来得到一个新的dataframe，很神奇

df['a'].apply(pd.Series)

合并列

df['ab'] = df[['a', 'b']].apply(tuple, axis=1)

11. pandas里面进行列循环的方法
一个iterrow，一个是itertuple
iterrow返回index和包含一行数据的series，以列名为index
itertuple返回一个元组，包含行数据；
显然后者比前者快

12. 一个关于条件判断的现象，有如下DataFrame
a = pd.DataFrame()
a = a.assign(a=[1,2,3],b=[4,5,np.nan],c=[7,8,np.nan],d=[1,2,3])

   a    b    c  d
0  1  4.0  7.0  1
1  2  5.0  8.0  2
2  3  NaN  NaN  3

以下五个条件判断
4. a[‘b’].isnull() & a[‘c’].isnull() 正常运行，在索引2得到True
5. a[‘b’].isnull() & a[‘a’]==3 无法得到预期结果True，在索引2得到了False
6. (a[‘b’].isnull()) & (a[‘a’]==3) 在各条件项上加上括号以后就得到了正确答案
7. a[‘d’]==2 & a[‘a’]==2 报错（ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().）
8. (a[‘d’]==2) & (a[‘a’]==2) 正常运行并得到预期结果。
原因是运算符的优先级问题，&的优先级更高

13. excel删除空行的方法
ctrl+g，选择blank

14. Pandas切片方法
对于DataFrame可以使用.loc方法，也可以使用iloc，
前者可以用列名取值，后者只能用行列数

   a    b    c  d
0  1  4.0  7.0  1
1  2  5.0  8.0  2
2  3  NaN  NaN  9
#取a、b列的，1-2行
slice = df.loc[1:2,['a','b']]
slice = df.iloc[1:,0:1]
#也这样可以直接取a列
df['a']
df.a

当进行多重切片时不建议叠加使用直接法，会弹出警告，而转而使用loc或者iloc。

15. 方法链
这个用好了可以让代码变得很整洁，一定要用。大概意思就是可以对一个df或者series链式使用方法，需要注意的是，如果想像我这样每个方法提一行，就要给外面加个括号。

df = (df.dropna()
		.unique()
		.loc[1,'a']
		.map(lambda element: element+1 if element <5
			 else element-1))

16. 匿名函数
上面一条里面的lambda函数就是匿名函数，作用相当于一个不用def的函数，放在map，apply里面相当好用。lambda后面是传入参数的名字。注意lambda里面不能赋值。所以复杂一点的func还是要def一下。

17.指定数据类型
读取csv时指定特定列的数据类型,这样可以避免"01000"这类编号被读取为数字变成"1000"类似的情况

df = pd.read_csv("somefile.csv", dtype = {
   'column_name' : str})

18. 常见caveat

SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

避免方法:

df2 = df[['A']]
df2['A'] = df['A'] / 2
# 变成
df2 = df.lo

最低0.47元/天解锁文章

顾 Kairey

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kr的pandas技巧笔记

自己总结的pandas技巧
复制链接

扫一扫

专栏目录

Kr的pandas技巧笔记

“相关推荐”对你有帮助么？