python 数据清洗之numpy、pandas

本文介绍了Python数据清洗过程中使用numpy和pandas的常见操作,包括读取数据、查看数据信息、去除不需要的行和列、重命名列、设置索引、字符串操作以及处理缺失值等。通过实例展示了如何高效地清洗和预处理数据。
摘要由CSDN通过智能技术生成

python 数据清洗用到两个包 numpy和pandas

Pandas的名称来自于Panel data和Python数据分析data analysis,是Python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,被作为金融数据分析工具,为时间序列分析提供了很好的支持,并于2009年底开源出来。

NumPy是Numeric Python的缩写,是Python的一种开源的数值计算扩展,可用来存储和处理大型矩阵matrix,比Python自身的嵌套列表结构要高效的多,提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库,专为进行严格的数字处理而产生。

目录
一、了解数据

二、清洗数据

去除不需要的行、列

重新命名列

重新设置索引

用字符串操作规范列

用函数规范列

删除重复数据

填充缺失值

一、了解数据

读取数据:Date = pd.read_excel(r"数据储存位置",header=XX行) # 读取数据 (header=XX行指的是把第几行作为列名

date.head() 查看前几行默认是前5行

date.tail()
查看后n行数据,默认值是5

date.shape
查看数据维数

date.columns
查看所有列名

date.info()
查看索引、数据类型和内存信息

date.describe()
查看每列数据的基本统计值,包括计数值、均值、标准差、最小
最大值、1/4、1/2、3/4分位数。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值