Python查看数据基础信息、缺失值和重复值处理

1.1预览数据前几行

df.head()   #默认为前5行,也可以自行设置
df.head(10)

1.2查看数据表大小

df.shape

1.3获取数据类型

df.info()

1.4查看数据分布情况

df.describe()
''&
  • 5
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用Python中的pandas库和numpy库来过滤Excel数据中的缺失值重复和异常。 ### 过滤缺失值 使用pandas库中的`dropna()`方法可以过滤缺失值。该方法默认会删除包含缺失值的行,也可以使用`subset`参数指定需要删除缺失值的列。 ```python import pandas as pd # 读取Excel文件 df = pd.read_excel('data.xlsx') # 过滤缺失值 filtered_df = df.dropna() # 将过滤后的数据保存到新的Excel文件中 filtered_df.to_excel('filtered_data.xlsx', index=False) ``` ### 过滤重复 使用pandas库中的`drop_duplicates()`方法可以过滤重复。该方法默认会删除完全相同的行,也可以使用`subset`参数指定需要删除重复的列。 ```python import pandas as pd # 读取Excel文件 df = pd.read_excel('data.xlsx') # 过滤重复 filtered_df = df.drop_duplicates() # 将过滤后的数据保存到新的Excel文件中 filtered_df.to_excel('filtered_data.xlsx', index=False) ``` ### 过滤异常 使用numpy库中的`percentile()`方法可以计算数据的百分位数,根据设定的阈过滤异常。 ```python import pandas as pd import numpy as np # 读取Excel文件 df = pd.read_excel('data.xlsx') # 计算第75百分位数和第25百分位数 q75, q25 = np.percentile(df['列名'], [75 ,25]) # 计算四分位距 iqr = q75 - q25 # 计算上下界限 upper_bound = q75 + 1.5 * iqr lower_bound = q25 - 1.5 * iqr # 过滤异常 filtered_df = df[(df['列名'] > lower_bound) & (df['列名'] < upper_bound)] # 将过滤后的数据保存到新的Excel文件中 filtered_df.to_excel('filtered_data.xlsx', index=False) ``` 其中,`列名`是需要过滤异常的列的名称,`1.5`是设定的阈,可以根据需要进行修改。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值