在数据分析中，对缺失值解决方案的分析

最新推荐文章于 2024-11-12 20:23:02 发布

亚当-麦当当

最新推荐文章于 2024-11-12 20:23:02 发布

阅读量820

点赞数 23

分类专栏：数据分析文章标签：数据分析数据挖掘数据库机器学习大数据人工智能

本文链接：https://blog.csdn.net/weixin_49811843/article/details/139813370

版权

7 篇文章 0 订阅

订阅专栏

使用dropna函数来删除空值，具体用法如下

# 函数用法
df.dropna(    
    axis=0,     
    how='any',     
    inplace=True,     
    subset=['列名',...],    
    thresh=10
)

df.drop() # 按列删除

Pandas 的 fillna 方法：
- 常数填充：用指定的常数填充缺失值。
  
  df['column'].fillna(value, inplace=True)
- 前向填充：用前一个有效值填充缺失值。
  
  df['column'].fillna(method='ffill', inplace=True)
- 后向填充：用后一个有效值填充缺失值。
  
  df['column'].fillna(method='bfill', inplace=True)
- 使用均值、中位数或众数填充：
  
  df['column'].fillna(df['column'].mean(), inplace=True) # 均值 df['column'].fillna(df['column'].median(), inplace=True) # 中位数 df['column'].fillna(df['column'].mode()[0], inplace=True) # 众数
Pandas 的 interpolate 方法：
- 线性插值填充缺失值。
  
  df['column'].interpolate(method='linear', inplace=True)
Scikit-learn 的 SimpleImputer：
- 使用均值、中位数或众数填充：
  
  from sklearn.impute import SimpleImputer imputer = SimpleImputer(strategy='mean') # 或者 'median', 'most_frequent' df['column'] = imputer.fit_transform(df[['column']])