Kr的pandas技巧笔记

最近在做一个数据集的可视化项目,又捡起了pandas和python,这里把实际用到的技巧干货写下来,防止忘记再次去网上各种查和看documentation,同时也分享给大家.

1. 找出nan项

DataFrame.isnull()

返回一个大小和 store_items 一样的布尔型 DataFrame,并用 True 表示具有 NaN 值的元素,用 False 表示非 NaN 值的元素。
2. 统计nan项数量

Series.isnull().sum()

3. 看单个元素是不是nan:因为pandas里面的nan都指向np.nan这样一个object,np.nan本身的type是float。python中is函数的作用是比较object的id

element is np.nan

4. unique() 和 nunique() 用来获取去除了重复值的列(或去重列中的元素数目)
注意:unique是series的方法,如果想在dataframe中实现类似功能,使用df.drop_duplicates(subset=[‘col_name’],keep=‘last’)
keep='last’的意思就是保留重复行里面的最后一行。subset的意思是,按照这一列的重复情况来去重。
顺便一提,df.duplicated(subset=[‘col_name’],keep=‘last’)方法是返回除了你要keep的那一行都为True。要实现和drop_duplicates一样的切片功能可以:df[~df.duplicated(subset=[‘col_name’],keep=‘last’)]

>>> df['generation'].unique()
array(['Generation X', 'Silent', 'G.I. Generation', 'Boomers',
       'Millenials', 'Generation Z'], dtype=object)
>>> df['country'].nunique()
101

对每个元素应用函数,function中应该有return

DataFrame/Series.apply(function)

5. #%%是spyder里面代码块的标识

6. Pandas里的assign方法
assign方法可以直接给DataFrame添加一列,或者替换掉名字相同的列;
特别注意在assign里面使用lambda函数时,lambda函数的变量是该DataFrame

DataFrame.assign(column_name=[])

7. Pandas里的map apply applymap方法
区别:

  1. map是series的方法,传入参数只有单个元素
  2. apply是DataFrame的方法,可以传入多个参数,第一个传入参数是整列或整行(也可以series使用,参数是单个元素)
  3. applymap作用于DataFrame,可以传入多个参数,第一个传入参数是单个元素
    使用建议:避免混淆,不要对Series使用apply,记住带map的参数是单个元素,apply是整列,但如果:func需要多个参数,则Series必须使用apply
    示例,并且其他传入参数必须为元组,元组中至少一个逗号,给func传入的第一个参数是Series中的元素。
   a 
0  1 
1  2 
2  3 
def add_num(a,b):
    return a+b
b = a['a'].apply(add_num, args=(3,))
     a
0    4
1    5
2    6

8. Pandas怎样替换数值
可以使用replace方法,也可以用map,apply等方法;
区别在于处理没有映射到的value时前者返回原value,后者返回NaN,并且速度更快。
记住两者区别,以及用字典映射来替换就可以了。

data.replace({
   "gender":{
   '1':'男', '0':'女'}})
data['gender']=data['gender'].map({
   '1':'男', '0':'女'})

9. Pandas根据条件来进行替换
笔者遇到了一个情况,将b列中的NaN值根据a和d的对应的关系来替换,具体而言就是把b列的NaN转化为d列中的9,因为9和a列里的3是对应关系。
也就是说,将一列中的特定元素根据另外两列的对应关系进行替换

   a    b    c  d
0  1  4.0  7.0  1
1  2  5.0  8.0  2
2  3  NaN  NaN  9

这一步基于上面替换数值的方法,可以使用replace或者map方法来做,参数为dict。
首先把对应关系转化为字典,再把b列中的NaN变成a列中对应得值,最后根据a列与d列的对应关系,把b列的值转化。
为什么这里要用map,不用replace,因为map没有找到返回的是NaN,而replace返回a列中的原值,我们并不需要。
这样的另一好处是,原index不会改变。

cond = df.b.isnull()
replacement = dict(zip(df.a,df.d))
df.loc[cond,'b'] = df.loc[cond,'a'].map(replacement)

10. Pandas里面分列的方法
如果一列里面的元素是str,那么用str方法来切分

df['name'].str.split(';',expand=True

如果是元组,那么使用apply来得到一个新的dataframe,很神奇

df['a'].apply(pd.Series)

合并列

df['ab'] = df[['a', 'b']].apply(tuple, axis=1)

11. pandas里面进行列循环的方法
一个iterrow,一个是itertuple
iterrow返回index和包含一行数据的series,以列名为index
itertuple返回一个元组,包含行数据;
显然后者比前者快

12. 一个关于条件判断的现象,有如下DataFrame
a = pd.DataFrame()
a = a.assign(a=[1,2,3],b=[4,5,np.nan],c=[7,8,np.nan],d=[1,2,3])

   a    b    c  d
0  1  4.0  7.0  1
1  2  5.0  8.0  2
2  3  NaN  NaN  3

以下五个条件判断
4. a[‘b’].isnull() & a[‘c’].isnull() 正常运行,在索引2得到True
5. a[‘b’].isnull() & a[‘a’]==3 无法得到预期结果True,在索引2得到了False
6. (a[‘b’].isnull()) & (a[‘a’]==3) 在各条件项上加上括号以后就得到了正确答案
7. a[‘d’]==2 & a[‘a’]==2 报错(ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().)
8. (a[‘d’]==2) & (a[‘a’]==2) 正常运行并得到预期结果。
原因是运算符的优先级问题,&的优先级更高

13. excel删除空行的方法
ctrl+g,选择blank

14. Pandas切片方法
对于DataFrame可以使用.loc方法,也可以使用iloc,
前者可以用列名取值,后者只能用行列数

   a    b    c  d
0  1  4.0  7.0  1
1  2  5.0  8.0  2
2  3  NaN  NaN  9
#取a、b列的,1-2行
slice = df.loc[1:2,['a','b']]
slice = df.iloc[1:,0:1]
#也这样可以直接取a列
df['a']
df.a

当进行多重切片时不建议叠加使用直接法,会弹出警告,而转而使用loc或者iloc。

15. 方法链
这个用好了可以让代码变得很整洁,一定要用。大概意思就是可以对一个df或者series链式使用方法,需要注意的是,如果想像我这样每个方法提一行,就要给外面加个括号。

df = (df.dropna()
		.unique()
		.loc[1,'a']
		.map(lambda element: element+1 if element <5
			 else element-1))

16. 匿名函数
上面一条里面的lambda函数就是匿名函数,作用相当于一个不用def的函数,放在map,apply里面相当好用。lambda后面是传入参数的名字。注意lambda里面不能赋值。所以复杂一点的func还是要def一下。

17.指定数据类型
读取csv时指定特定列的数据类型,这样可以避免"01000"这类编号被读取为数字变成"1000"类似的情况

df = pd.read_csv("somefile.csv", dtype = {
   'column_name' : str})

18. 常见caveat

SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

避免方法:

df2 = df[['A']]
df2['A'] = df['A'] / 2
# 变成
df2 = df.lo
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值