数据分析笔记 13

数据分析 读取文件,数据预处理
数据处理,分组聚合
数据可视化,挖掘洞见

分组

groupby()用分组键传入该函数中 将分组后的传入
groupByDate=data.groupby(data["date’])

聚合

将各个分组里进行计算产生新的值 将分组联合为一个结果对象
聚合操作是groupby 函数后的常见操作,可以通过聚合函数来计算平均值、最大值、最小值和总和等。

groupByDate=data.groupby(data[“date"]).sum()

画图

plt.plot()

重采样

重采样会把数据中时间点从一个频率转换为另一个频率。简单来说就是机遇时间段的分组操作
向下采样:从高频率到低频率
向上采样:从低频到高频率
同频采样:频率不变 改变时间
在默认情况下,重采样屎根据时间格式的行索引来进行分组聚合操作的 在处理过程中更加方便,我们通常会把数据中 时间格式的行操作作为行索引index后,再进行重采样。

pandas中可以 使用resample()函数完成重采样 只需要吧重采样的规则传入该函数即可
在调用resample()函数分组中也需要使用聚合函数,把结果聚合起来。
将营业额转换为按月统计resample()函数向下采样。
必选函数:重采样的规则
resample()函数 作为重采样的规则
常用频率 D每天 W 每周 M每月月末 Q每个季度末 A 每年年末 H每小时 T每分钟 S每秒

现对原油数据按照指定是我频率进行切分 划不同的组只能够。再对不同的分组进行聚合,生成一个最终的结果。
resampleData的index显示为当月的最后一天 格式是%Y-%m-%d

先groupby() 后resample()
计算每个业态下每个月的营业额总和
将结果赋值给变量groupByCategory
groupByCategory=data.groupby(data[“category”]).resample(“M”).sum()

多层行索引

访问第一层索引
.loc属性

将获取的三个也太 存在service 和retail 重采样
分组聚合 重采样 将营业额换成每月为单位

计算商城每月总营业
依次获取每个也业态的各月营业额
用每个业态的各个营业额除以商城当月总营业额,来获取占比数据。

让每月的营业额都展示在一行里,需要拥戴重塑多层索引

重塑多层索引

unstak() 把其中一层的行索引index变成列索引 columns
使用sum()函数,按照axis=1来计算每月总营业额,并赋值给变量sumTurnover
sumTurnover=groupByCategory.sum(axis=1)
自动遍历 groupByCategory里的每列数据 批量除以sumTurnover

apply应用

pandas apply()函数,将自定义的函数应用到DataFrame,对其每一行或每一列进行指定的操作,然后根据自定义的函数
隐喻

apply()函数 返回值赋给了percentage

先自定义一个函数
对一个DataFrame()使用apply()

将percentage变量使用plot.bar()函数 用来绘制百分比堆积柱状图。每一行数值类型的值,作为y轴的值,会根据columns自动生成的图例。

请添加图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值