python 使用pandas中的dropna方法过滤缺失数据

相关参数

pd.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)

参数1 axis : 0为删除行,1为删除列

import pandas as pd
import numpy as np
df=pd.DataFrame(np.random.randn(4,5),columns=list('abcde'))
df.loc[1,['b','d']]=np.nan

在这里插入图片描述

df.dropna(axis=0)

在这里插入图片描述

df.dropna(axis=1)

在这里插入图片描述

参数2 how : {‘any’, ‘all’}

any : 存在即nan即丢弃,all : 全部为nan才丢弃

df.dropna(axis=0,how='all')


可以发现,并未删除,我们重新增加一列全部为nan

df['f']=np.nan
df

在这里插入图片描述
这次再执行

在这里插入图片描述
即删除了

参数3 thresh :默认值 None值(int) :要求每排至少N个非NA值

df.dropna(axis=0,thresh=3)

在这里插入图片描述

df.dropna(axis=0,thresh=4) 

在这里插入图片描述
我们选择了对行操作,当thresh值为3的时候并没有删除索引为1的行,虽然它含有两个nan值,但是当thresh的值为4的时对其进行了删除,其原因是该参数的意义就是保留非nan值为参数值的那一行(列),索引为1的行的非nan值为3所以当thresh为3时对其进行了保留,但是当thresh为4的时候则对其进行了不保留(删除)。

参数4 subset : 对某几列判断

如果不加参数默认是对所有列进行判断,加上则是对某几列或某一列进行判断。这几列有空值时删除。

df.dropna(axis=0,subset=['e'])

在这里插入图片描述

df.dropna(axis=0,subset=['e','b'])

在这里插入图片描述
当把subset选择为e时,并未对该行进行删除操作,因为索引为1的行e值并不为nan。但是当把sunset的列表加入b时就进行了删除,很显然b字段的值为nan,另外需要注意的是subset列表字段为nan进行删除是一个并集,不是交集只要列表里有一个字段或者某一行为nan都进行了删除。

参数5 inplace : 默认值 False

当为False时,我们刚才的操作其实并未在原对象进行修改,他会返回一个新的对象
在这里插入图片描述
从上不难看出,当inplace=False时候,原对象并未被修改,而是把修改后的返回给新对象
在这里插入图片描述
而当inplace 为True 时则直接对原对象进行操作
在这里插入图片描述

  • 15
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
### 回答1: 好的,那么你需要先安装 Pandas 库。你可以使用以下命令进行安装: ``` pip install pandas ``` 然后在你的代码导入 Pandas 库: ```python import pandas as pd ``` 接下来你就可以使用 Pandas的各种功能了。 Pandas 主要用于处理表格数据,提供了很多方便的函数和数据结构。 例如,你可以使用 `read_csv` 函数读取 CSV 文件到一个 Pandas 数据: ```python df = pd.read_csv('my_data.csv') ``` 然后你就可以使用数据框的各种方法进行操作了,例如选择特定的过滤行、对数据进行聚合等等。 你还可以使用 `to_csv` 函数将数据框保存到 CSV 文件: ```python df.to_csv('my_processed_data.csv') ``` 这只是 Pandas 库的一小部分功能,如果你想了解更多信息,可以查看 Pandas 库的文档。 ### 回答2: Python pandas 是一个开源的数据分析库,提供了丰富灵活的数据结构和数据处理工具。它基于NumPy构建,可以高效地处理各种数据操作。 使用 Python pandas 进行数据分析通常需要以下几个步骤: 1. 导入 pandas 库:在代码开头使用 `import pandas as pd` 来导入 pandas 库,并且习惯上给这个库起一个别名 pd,便于后续使用。 2. 创建数据结构:pandas 提供了两种基本的数据结构,Series 和 DataFrame。Series 是一维数组的结构,DataFrame 是二维表格的结构。可以使用 pd.Series() 和 pd.DataFrame() 函数来创建。 3. 数据读取:pandas 可以读取多种不同格式的数据,包括 CSV、Excel、SQL 等。使用 pd.read_csv()、pd.read_excel()、pd.read_sql() 等函数来读取数据,并将其存储到 DataFrame 。 4. 数据清洗与处理:pandas 提供了丰富的函数和方法来清洗和处理数据,如填充缺失值、删除重复数据数据排序、数据筛选、数据变换等。可以使用 df.dropna()、df.fillna()、df.drop_duplicates()、df.sort_values()、df.loc[] 等方法实现。 5. 数据分析与计算:pandas 提供了丰富的统计分析和计算函数,如平均值、位数、总和、标准差、相关性等。可以使用 df.mean()、df.median()、df.sum()、df.std()、df.corr() 等方法进行计算。 6. 数据可视化:pandas 结合了 Matplotlib 库,可以进行简单的数据可视化。使用 df.plot() 函数可以绘制折线图、柱状图等常见的图表。 除了上述基本的使用方法pandas 还有很多其他高级功能,如数据透视表、数据合并、时间序分析等。在数据分析和数据处理方面,pandas 提供了非常方便的工具和函数,是 Python 数据科学领域最受欢迎的库之一。 ### 回答3: Python pandas是一个开源的数据分析和数据处理库,它提供了高效、灵活和简单的数据结构和数据分析工具,使数据科学家和数据分析师能够更容易地进行数据处理和分析。 使用Python pandas进行数据处理和分析的基本步骤包括导入pandas库、加载数据数据清洗、数据转换和数据分析等。 首先,我们需要导入pandas库: import pandas as pd 接下来,我们可以使用read_csv()函数加载CSV文件数据: data = pd.read_csv('data.csv') 经过以上步骤,我们就可以开始对数据进行清洗和转换了。Pandas提供了一系数据清洗和转换函数,例如: - dropna()函数用于删除含有缺失值的行或; - fillna()函数用于填充缺失值; - drop_duplicates()函数用于删除重复的行; - replace()函数用于替换指定的值; - apply()函数用于应用自定义的函数等。 完成数据的清洗和转换后,我们就可以开始进行数据分析了。Pandas提供了强大的数据分析工具,例如: - describe()函数用于计算数据的描述性统计信息,例如均值、标准差、最小值、最大值等; - groupby()函数用于按照指定的数据进行分组; - merge()函数用于合并多个数据集; - plot()函数用于绘制数据图表等。 通过以上步骤,我们就可以使用Python pandas数据进行处理和分析了。同时,Pandas还支持对数据进行导出和导入,例如导出为CSV文件、Excel文件或数据库等。 总的来说,Python pandas是一个强大而灵活的数据处理和分析工具,它的使用方法简单易懂,并且提供了丰富的功能和功能扩展,能够满足不同场景下的数据科学家和数据分析师的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值