Pandas函数read_csv的参数na_values的用法

最新推荐文章于 2025-03-11 15:29:01 发布

宁宁Fingerstyle

最新推荐文章于 2025-03-11 15:29:01 发布

阅读量1.9w

点赞数 126

分类专栏： Python学习文章标签： pandas NaN na_values DataFrame read_csv

本文链接：https://blog.csdn.net/weixin_44520259/article/details/106053987

版权

49 篇文章

订阅专栏

我们使用Pandas的read_csv函数读取csv文件的时候，缺失的数据总是会自动填充为NaN.什么样的值会被认为是缺失的数据呢？我们能不能提供一些个性化的缺失数据？这就要用到na_values参数。下面将介绍这个参数。

我们有一个文件叫comments.csv，如果普通读入，得到的结果如下图所示：

这份数据看起来很完整，没有缺失的值。但是行索引为1的用户的年龄是0，这是不合理的，所以我们也想把它看成缺失值，希望它能变成NaN.这时候我们就可以使用na_values参数了。

官方文档对na_values参数的的解释如下：

可以看到，默认情况下，pandas会认为空字符串，还有一系列长得像NaN,长得像null的字符串是缺失值。如果我们想要补充一些自定义的等同于缺失的值，就可以给na_values参数传值。它接受的数据类型有标量（数字），字符串，列表类的，字典。

现在我们希望pandas也把0当成缺失值，用NaN来填充原本为0的单元格。所以我们用整型就可以了

import pandas as pd


df = pd.read_csv('C:\\Users\\22768\\Desktop\\comments.csv',na_values=0)

print(df)

打印的结果如下：

年龄为0的单元格确实被替换成了NaN.但是又出现了一个新的问题。行索引为2的用户，她的性别是0，而现在0被看成缺失值了，也替换成了NaN,这不是我们希望的。

我们可以用字典来解决这个问题。如果na_values的参数是一个字典，那就可以为具体的列来指定缺失值的样子。我们就可以指定在Age这一列，0要被看成缺失值；在Comment这一列，“该用户没有评价”被看成缺失值。代码如下：

df = pd.read_csv('C:\\Users\\22768\\Desktop\\comments.csv',
                 na_values={'Age':0,'Comment':'该用户没有评价'})
print(df)

打印结果如下：

这次的结果就比较合理了。