2020-11-27

最新推荐文章于 2020-11-30 09:23:16 发布

1363-Y-mmybc

最新推荐文章于 2020-11-30 09:23:16 发布

阅读量89

点赞数

本文链接：https://blog.csdn.net/weixin_49684055/article/details/110234800

版权

在pandas中类似的分组的操作我们有很简单的方式来完成

df.groupby(by=“columns_name”)
grouped = df.groupby(by=“columns_name”)
grouped是一个DataFrameGroupBy对象，是可迭代的
grouped中的每一个元素是一个元组
元组里面是（索引(分组的值)，分组之后的DataFrame）
DataFrameGroupBy对象有很多经过优化的方法
如果我们需要对国家和省份进行分组统计，应该怎么操作呢？

grouped = df.groupby(by=[df[“Country”],df[“State/Province”]])
获取分组之后的某一部分数据：
df.groupby(by=[“Country”,“State/Province”])[“Country”].count()
对某几列数据进行分组：
df[“Country”].groupby(by=[df[“Country”],df[“State/Province”]]).count()
观察结果，由于只选择了一列数据，所以结果是一个Series类型
t1 = df[[“Country”]].groupby(by=[df[“Country”],df[“State/Province”]]).count()
t2 = df.groupby(by=[“Country”,“State/Province”])[[“Country”]].count()#返回DataFrame类型

简单的索引操作：
获取index：df.index
指定index ：df.index = [‘x’,‘y’]
重新设置index : df.reindex(list(“abcedf”))
指定某一列作为index ：df.set_index(“Country”,drop=False)
返回index的唯一值：df.set_index(“Country”).index.unique()

不管在什么行业，时间序列都是一种非常重要的数据形式，很多统计数据以及数据的规律也都和时间序列有着非常重要的联系
生成一段时间范围
pd.date_range(start=None, end=None, periods=None, freq=‘D’)
start和end以及freq配合能够生成start和end范围内以频率freq的一组时间索引
start和periods以及freq配合能够生成从start开始的频率为freq的periods个时间索引

重采样：指的是将时间序列从一个频率转化为另一个频率进行处理的过程，将高频率数据转化为低频率数据为降采样，低频率转化为高频率为升采样
pandas提供了一个resample的方法来帮助我们实现频率转化

1363-Y-mmybc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-11-27

在pandas中类似的分组的操作我们有很简单的方式来完成df.groupby(by=“columns_name”)grouped = df.groupby(by=“columns_name”)grouped是一个DataFrameGroupBy对象，是可迭代的grouped中的每一个元素是一个元组元组里面是（索引(分组的值)，分组之后的DataFrame）DataFrameGroupBy对象有很多经过优化的方法如果我们需要对国家和省份进行分组统计，应该怎么操作呢？grouped = df.g
复制链接

扫一扫