pandas对不同类别进行填充缺失值:df.transform聚合方法的巧用

最新推荐文章于 2025-03-28 15:57:17 发布

小文大数据

最新推荐文章于 2025-03-28 15:57:17 发布

阅读量1.4k

点赞数

文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/weixin_46707493/article/details/126740393

版权

首先看数据：

import pandas as pd
x = pd.DataFrame([[166,52,'男'],[152,43,'女'],[182,73,'男'],[172,63,'女'],[np.nan,np.nan,'女'],[np.nan,np.nan,'男']],columns = ['身高','体重','性别'])
x

常用的填充缺失值的方法为使用均值、众数等进行填充，如下：

但当我们需要对不同类别数据进行填充其类别的均值时，可能比较麻烦，大家常用的思路可能如下，即取出不同类别的数据，然后依次填充：

labels = x['性别'].unique()
for label in labels:
    for col in x.columns[:-1]:
        data_ = x.loc[x['性别']==label, col]
        x.loc[x['性别']==label, col] = data_.fillna(data_.mean())
print(x)

但我们可以使用分组以及transform聚合方法更简便的完成这个操作：


x = pd.DataFrame([[166,52,'男'],[152,43,'女'],[182,73,'男'],[172,63,'女'],[np.nan,np.nan,'女'],[np.nan,np.nan,'男']],columns = ['身高','体重','性别'])

x.loc[:,x.columns != '性别'] = x.groupby('性别').transform(lambda x:x.fillna(x.mean()))
print(x)