首先看数据:
import pandas as pd
x = pd.DataFrame([[166,52,'男'],[152,43,'女'],[182,73,'男'],[172,63,'女'],[np.nan,np.nan,'女'],[np.nan,np.nan,'男']],columns = ['身高','体重','性别'])
x
常用的填充缺失值的方法为使用均值、众数等进行填充,如下:
但当我们需要对不同类别数据进行填充其类别的均值时,可能比较麻烦,大家常用的思路可能如下,即取出不同类别的数据,然后依次填充:
labels = x['性别'].unique()
for label in labels:
for col in x.columns[:-1]:
data_ = x.loc[x['性别']==label, col]
x.loc[x['性别']==label, col] = data_.fillna(data_.mean())
print(x)
但我们可以使用分组以及transform聚合方法更简便的完成这个操作:
x = pd.DataFrame([[166,52,'男'],[152,43,'女'],[182,73,'男'],[172,63,'女'],[np.nan,np.nan,'女'],[np.nan,np.nan,'男']],columns = ['身高','体重','性别'])
x.loc[:,x.columns != '性别'] = x.groupby('性别').transform(lambda x:x.fillna(x.mean()))
print(x)
transform方法的作用为对分组后的数据聚合得到的数返回给每一行(若聚合得到为单个标量,则返回给每一行,即同一个组别的每一行数据相等,若聚合得到的为原数据的大小,则对应返回给原数据,如这里结果),在这里对性别进行分组后,对每个组进行填充然后返回到原数据,即可实现对不同组别进行填充。