Python数据分析——Pandas基础入门+代码(二)

本文介绍了Python数据分析库Pandas的基础知识,包括如何使用.agg()进行聚合运算,.drop_duplicates()去除重复值,.value_counts()进行计数,以及.groupby()进行分组统计。通过实例展示了这些方法的使用,帮助读者掌握Pandas在统计分析中的应用。
摘要由CSDN通过智能技术生成

系列文章目录

Chapter 1:创建与探索DF、排序、子集化:Python数据分析——Pandas基础入门+代码(一)
Chapter 2:聚合函数,groupby,统计分析:Python数据分析——Pandas基础入门+代码(二)
Chapter 3:索引和切片:Python数据分析——Pandas基础入门+代码(三)
Chapter 4: 可视化与读写csv文件:Python数据分析——Pandas基础入门+代码(四)
Chapter 5:数据透视表:Python数据分析——Pandas基础入门+代码之数据透视表



前言

这一篇主要讲的是:

聚合Agg、分组groupby以及“统计”

涉及到如下的methods:

  • .agg()
  • .drop_duplicates()
  • .value_counts()
  • .groupby()

一、如何利用pandas解决统计上的某些问题

这边列出来的是一些我们常用的描述性统计上的东西,其实可以直接describe(),就能直接知道每列的一个信息。至于怎么去用应该特别简单,举个例子。

Name Description
均值 mean() / np.mean()
中位数 np.median()
最大值 max()
最小值 min()
累加 .cumsum()
累计最大 .cummax()

For example, 某个DataFrame前几行是这样的。
在这里插入图片描述
假如去计算每周的销售额weekly_sales的均值和中位数,代码如下

In [1]: print(sales['weekly_sales'].mean())
Out [1]: 23843.95014850566

In [2]: print(sales['weekly_sales'].median())
Out [2]: 12049.064999999999

二、如何使用pandas.DataFrame.agg() 聚合方法

.agg() 可以使得我们进行一个高效的聚合运算,我们可以自定函数放到里面,也可以使用其他包中的函数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-m16YX8fx-1648573478196)(Aggregatin%2028450/Untitled%203.png)]

代码示例如下,这是我们自定义的函数

# A custom IQR function
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)

然后,我们可以将其放入到agg()中进行运算,就能得到如下的结果

# Print IQR of the temperature_c column
In [1]: print(sales['temperature_c'].agg(iqr))
Out [1]: 16.583333333333336

接下来是2个值得注意的地方。

  • 首先,如果我们需要对多列进行聚合,那么我们就像之前那篇说过的一样,需要在里面多打上一个中括号。
  • 其次,
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Pigou_

谢谢老板!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值