最近在做一个数据集的可视化项目,又捡起了pandas和python,这里把实际用到的技巧干货写下来,防止忘记再次去网上各种查和看documentation,同时也分享给大家.
1. 找出nan项
DataFrame.isnull()
返回一个大小和 store_items 一样的布尔型 DataFrame,并用 True 表示具有 NaN 值的元素,用 False 表示非 NaN 值的元素。
2. 统计nan项数量
Series.isnull().sum()
3. 看单个元素是不是nan:因为pandas里面的nan都指向np.nan这样一个object,np.nan本身的type是float。python中is函数的作用是比较object的id
element is np.nan
4. unique() 和 nunique() 用来获取去除了重复值的列(或去重列中的元素数目)
注意:unique是series的方法,如果想在dataframe中实现类似功能,使用df.drop_duplicates(subset=[‘col_name’],keep=‘last’)
keep='last’的意思就是保留重复行里面的最后一行。subset的意思是,按照这一列的重复情况来去重。
顺便一提,df.duplicated(subset=[‘col_name’],keep=‘last’)方法是返回除了你要keep的那一行都为True。要实现和drop_duplicates一样的切片功能可以:df[~df.duplicated(subset=[‘col_name’],keep=‘last’)]
>>> df['generation'].unique()
array(['Generation X', 'Silent', 'G.I. Generation', 'Boomers',
'Millenials', 'Generation Z'], dtype=object)
>>> df['country'].nunique()
101
对每个元素应用函数,function中应该有return
DataFrame/Series.apply(function)
5. #%%是spyder里面代码块的标识
6. Pandas里的assign方法
assign方法可以直接给DataFrame添加一列,或者替换掉名字相同的列;
特别注意在assign里面使用lambda函数时,lambda函数的变量是该DataFrame
DataFrame.assign(column_name=[])
7. Pandas里的map apply applymap方法
区别:
- map是series的方法,传入参数只有单个元素
- apply是DataFrame的方法,可以传入多个参数,第一个传入参数是整列或整行(也可以series使用,参数是单个元素)
- applymap作用于DataFrame,可以传入多个参数,第一个传入参数是单个元素
使用建议:避免混淆,不要对Series使用apply,记住带map的参数是单个元素,apply是整列,但如果:func需要多个参数,则Series必须使用apply
示例,并且其他传入参数必须为元组,元组中至少一个逗号,给func传入的第一个参数是Series中的元素。
a
0 1
1 2
2 3
def add_num(a,b):
return a+b
b = a['a'].apply(add_num, args=(3,))
a
0 4
1 5
2 6
8. Pandas怎样替换数值
可以使用replace方法,也可以用map,apply等方法;
区别在于处理没有映射到的value时前者返回原value,后者返回NaN,并且速度更快。
记住两者区别,以及用字典映射来替换就可以了。
data.replace({
"gender":{
'1':'男', '0':'女'}})
data['gender']=data['gender'].map({
'1':'男', '0':'女'})
9. Pandas根据条件来进行替换
笔者遇到了一个情况,将b列中的NaN值根据a和d的对应的关系来替换,具体而言就是把b列的NaN转化为d列中的9,因为9和a列里的3是对应关系。
也就是说,将一列中的特定元素根据另外两列的对应关系进行替换
a b c d
0 1 4.0 7.0 1
1 2 5.0 8.0 2
2 3 NaN NaN 9
这一步基于上面替换数值的方法,可以使用replace或者map方法来做,参数为dict。
首先把对应关系转化为字典,再把b列中的NaN变成a列中对应得值,最后根据a列与d列的对应关系,把b列的值转化。
为什么这里要用map,不用replace,因为map没有找到返回的是NaN,而replace返回a列中的原值,我们并不需要。
这样的另一好处是,原index不会改变。
cond = df.b.isnull()
replacement = dict(zip(df.a,df.d))
df.loc[cond,'b'] = df.loc[cond,'a'].map(replacement)
10. Pandas里面分列的方法
如果一列里面的元素是str,那么用str方法来切分
df['name'].str.split(';',expand=True
如果是元组,那么使用apply来得到一个新的dataframe,很神奇
df['a'].apply(pd.Series)
合并列
df['ab'] = df[['a', 'b']].apply(tuple, axis=1)
11. pandas里面进行列循环的方法
一个iterrow,一个是itertuple
iterrow返回index和包含一行数据的series,以列名为index
itertuple返回一个元组,包含行数据;
显然后者比前者快
12. 一个关于条件判断的现象,有如下DataFrame
a = pd.DataFrame()
a = a.assign(a=[1,2,3],b=[4,5,np.nan],c=[7,8,np.nan],d=[1,2,3])
a b c d
0 1 4.0 7.0 1
1 2 5.0 8.0 2
2 3 NaN NaN 3
以下五个条件判断
4. a[‘b’].isnull() & a[‘c’].isnull() 正常运行,在索引2得到True
5. a[‘b’].isnull() & a[‘a’]==3 无法得到预期结果True,在索引2得到了False
6. (a[‘b’].isnull()) & (a[‘a’]==3) 在各条件项上加上括号以后就得到了正确答案
7. a[‘d’]==2 & a[‘a’]==2 报错(ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().)
8. (a[‘d’]==2) & (a[‘a’]==2) 正常运行并得到预期结果。
原因是运算符的优先级问题,&的优先级更高
13. excel删除空行的方法
ctrl+g,选择blank
14. Pandas切片方法
对于DataFrame可以使用.loc方法,也可以使用iloc,
前者可以用列名取值,后者只能用行列数
a b c d
0 1 4.0 7.0 1
1 2 5.0 8.0 2
2 3 NaN NaN 9
#取a、b列的,1-2行
slice = df.loc[1:2,['a','b']]
slice = df.iloc[1:,0:1]
#也这样可以直接取a列
df['a']
df.a
当进行多重切片时不建议叠加使用直接法,会弹出警告,而转而使用loc或者iloc。
15. 方法链
这个用好了可以让代码变得很整洁,一定要用。大概意思就是可以对一个df或者series链式使用方法,需要注意的是,如果想像我这样每个方法提一行,就要给外面加个括号。
df = (df.dropna()
.unique()
.loc[1,'a']
.map(lambda element: element+1 if element <5
else element-1))
16. 匿名函数
上面一条里面的lambda函数就是匿名函数,作用相当于一个不用def的函数,放在map,apply里面相当好用。lambda后面是传入参数的名字。注意lambda里面不能赋值。所以复杂一点的func还是要def一下。
17.指定数据类型
读取csv时指定特定列的数据类型,这样可以避免"01000"这类编号被读取为数字变成"1000"类似的情况
df = pd.read_csv("somefile.csv", dtype = {
'column_name' : str})
18. 常见caveat
SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
避免方法:
df2 = df[['A']]
df2['A'] = df['A'] / 2
# 变成
df2 = df.lo