Pandas之缺失值处理

最新推荐文章于 2023-06-26 08:43:34 发布

鞋子不会飞

最新推荐文章于 2023-06-26 08:43:34 发布

阅读量263

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_45651336/article/details/111569041

版权

机器学习专栏收录该内容

24 篇文章 1 订阅

订阅专栏

Pandas之缺失值处理

在这里插入图片描述

1 如何处理nan

获取缺失值的标记方式（NaN或其他标记方式）
如果缺失值的标记方式是NaN
- 判断数据中是否包含NaN：
- pd.isnull（df），
- pd.notnull（df）
- 存在缺失值nan，并且是np.nan：
  - 1，删除存在缺失值的：dropna（axis =‘rows’）
    - 注：不会修改原数据，需要接受返回值
  - 2，替换缺失值：fillna（value，inplace = True）
- 替换成的值
  - inplace：True：会修改原数据，False：不替换修改原数据，生成新的对象
如果缺失值没有使用NaN标记，可以使用“？”
- 先替换’？’'为np.nan，然后继续处理

2 电影数据的缺失值处理

# 读取电影数据
movie = pd.read_csv("./data/IMDB-Movie-Data.csv")

在这里插入图片描述

2.1判断缺失值是否存在

pd.notnull（）

pd.notnull(movie)

Rank    Title    Genre    Description    Director    Actors    Year    Runtime (Minutes)    Rating    Votes    Revenue (Millions)    Metascore
0    True    True    True    True    True    True    True    True    True    True    True    True
1    True    True    True    True    True    True    True    True    True    True    True    True
2    True    True    True    True    True    True    True    True    True    True    True    True
3    True    True    True    True    True    True    True    True    True    True    True    True
4    True    True    True    True    True    True    True    True    True    True    True    True
5    True    True    True    True    True    True    True    True    True    True    True    True
6    True    True    True    True    True    True    True    True    True    True    True    True
7    True    True    True    True    True    True    True    True    True    True    False    True

np.all(pd.notnull(movie))

2.2 存在缺失值nan，并且是np.nan

1，删除
pandas删除缺失值，使用dropna的替代是，缺失值的类型必须是np.nan

# 不修改原数据
movie.dropna()

# 可以定义新的变量接受或者用原来的变量名
data = movie.dropna()

2，替换缺失值

# 替换存在缺失值的样本的两列
# 替换填充平均值，中位数
# movie['Revenue (Millions)'].fillna(movie['Revenue (Millions)'].mean(), inplace=True)

替换所有缺失值：

for i in movie.columns:
    if np.all(pd.notnull(movie[i])) == False:
        print(i)
        movie[i].fillna(movie[i].mean(), inplace=True)

2.3不是缺失值nan，有预设标记的

数据是这样的：
在这里插入图片描述

wis = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data")

以上数据在读取时，可能会报如下错误：

URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)>

解决方法：

# 全局取消证书验证
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

处理思路分析：

1，先替换’？'为np.nan
- df.replace（to_replace =，value =）
  - to_replace：替换前的值
  - 替换后的值

# 把一些其它值标记的缺失值，替换成np.nan
wis = wis.replace(to_replace='?', value=np.nan)

2，在进行缺失值的处理

# 删除
wis = wis.dropna()

鞋子不会飞

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Pandas之缺失值处理

Pandas之缺失值处理1 如何处理nan2 电影数据的缺失值处理2.1判断缺失值是否存在2.2 存在缺失值nan，并且是np.nan2.3不是缺失值nan，有预设标记的1 如何处理nan获取缺失值的标记方式（NaN或其他标记方式）如果缺失值的标记方式是NaN判断数据中是否包含NaN：pd.isnull（df），pd.notnull（df）存在缺失值nan，并且是np.nan：1，删除存在缺失值的：dropna（axis =‘rows’）注：不会修改原数据，需要接受返回值
复制链接

扫一扫

专栏目录