数据分析笔记 13

最新推荐文章于 2024-07-10 17:34:04 发布

叽叽咕咕xd

最新推荐文章于 2024-07-10 17:34:04 发布

阅读量484

点赞数

分类专栏：数据分析笔记文章标签：数据分析数据挖掘人工智能

本文链接：https://blog.csdn.net/weixin_45696295/article/details/122933834

版权

数据分析笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

数据分析读取文件，数据预处理
数据处理，分组聚合
数据可视化，挖掘洞见

分组

groupby()用分组键传入该函数中将分组后的传入
groupByDate=data.groupby(data["date’])

聚合

将各个分组里进行计算产生新的值将分组联合为一个结果对象
聚合操作是groupby 函数后的常见操作，可以通过聚合函数来计算平均值、最大值、最小值和总和等。

groupByDate=data.groupby(data[“date"]).sum()

画图

plt.plot()

重采样

重采样会把数据中时间点从一个频率转换为另一个频率。简单来说就是机遇时间段的分组操作
向下采样：从高频率到低频率
向上采样：从低频到高频率
同频采样：频率不变改变时间
在默认情况下，重采样屎根据时间格式的行索引来进行分组聚合操作的在处理过程中更加方便，我们通常会把数据中时间格式的行操作作为行索引index后，再进行重采样。

pandas中可以使用resample()函数完成重采样只需要吧重采样的规则传入该函数即可
在调用resample()函数分组中也需要使用聚合函数，把结果聚合起来。
将营业额转换为按月统计resample()函数向下采样。
必选函数：重采样的规则
resample()函数作为重采样的规则
常用频率 D每天 W 每周 M每月月末 Q每个季度末 A 每年年末 H每小时 T每分钟 S每秒

现对原油数据按照指定是我频率进行切分划不同的组只能够。再对不同的分组进行聚合，生成一个最终的结果。
resampleData的index显示为当月的最后一天格式是%Y-%m-%d

先groupby() 后resample()
计算每个业态下每个月的营业额总和
将结果赋值给变量groupByCategory
groupByCategory=data.groupby(data[“category”]).resample(“M”).sum()

多层行索引

访问第一层索引
.loc属性

将获取的三个也太存在service 和retail 重采样
分组聚合重采样将营业额换成每月为单位

计算商城每月总营业
依次获取每个也业态的各月营业额
用每个业态的各个营业额除以商城当月总营业额，来获取占比数据。

让每月的营业额都展示在一行里，需要拥戴重塑多层索引

重塑多层索引

unstak() 把其中一层的行索引index变成列索引 columns
使用sum()函数，按照axis=1来计算每月总营业额，并赋值给变量sumTurnover
sumTurnover=groupByCategory.sum(axis=1)
自动遍历 groupByCategory里的每列数据批量除以sumTurnover