42 pandas统计分析基础--描述分析DataFrame数据及转换与处理时间序列数据

  • 数值型数据的描述性统计主要包括了计算数值型数据的完整情况、最小值、均值、中位数、最 大值、四分位数、极差、标准差、方差、协方差和变异系数等。pandas库基于NumPy,自然也可以用一些统计函数对DataFrame进行描述性统计。

  • pandas还提供了一个方法叫作describe,能够一次性得出DataFrame所有数值型特征的非空值数 目、均值、四分位数、标准差。

  • 描述类别型特征的分布状况,可以使用频数统计表。pandas库中实现频数统计的方法为value_counts

  • describe方法除了支持传统数值型以外,还支持非数值型(类别型)数据的描述性统计。例如 ,统计列的非空元素的数目,类别的数目,数目最多的类别,数目最多类别的数目。但在此之前,需要将这些非数值型(类别型)的数据用astype方法转换为category类型

  • 数据分析的分析对象不仅局限于数值型和类别型两种,常用的数据类型还包括了时间类型。通过时间类型数据能够获取到对应的年月日和星期等信息。 但时间类型数据在读人Python后常常以字符串形式出现,无法实现大部分与时间相关的分析。 pandas 库继承了NumPy库的datetime64以及timedelta64模块,能够快速地实现时间字符串 的转换、信息提取和时间运算。

  • 其中Timestamp作为时间类中最基础的,也是最为常用的。在多数情况下,时间相关的字符串 都会转换成为Timestamp。pandas提供了to_datetime函数,能够实现这一目标。值得注意的是,Timestamp类型时间是有限制的。

  • 除了将数据从原始DataFrame中直接转换为Timestamp格式外,还可以将数据单独提取出来将 其转换为DatetimeIndex或者PeriodIndex。转换为PeriodInde

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值