Day 35 ：分组groupby

最新推荐文章于 2023-03-21 16:56:05 发布

Garciaxx

最新推荐文章于 2023-03-21 16:56:05 发布

阅读量112

点赞数

分类专栏：学习记录学习成长学习笔记文章标签： python 数据分析列表可视化

本文链接：https://blog.csdn.net/weixin_50192514/article/details/109606081

版权

学习记录同时被 3 个专栏收录

58 篇文章 2 订阅

订阅专栏

学习笔记

56 篇文章 0 订阅

订阅专栏

学习成长

38 篇文章 1 订阅

订阅专栏

Python 回忆录

2020/11/10

2020/11/10

分组（groupby 语句）

在pandas里分组的操作就是
df.groupby(by= "columns_name")返回的是一个DataFrameGroupBy这个类型。这个类型可以遍历，也可以聚合。现在有一个星巴克店铺的统计数据，有如下数据
在这里插入图片描述
当然也可以进行两列分组
df.groupby(by=[df[“Country”],df[“State/Provice”]])

分组后的遍历

把DataFrameGroupBy遍历后会返回一个个元组。元组的第一个值就是上一步分组的组名，后面的一个值是DataFrame类型是所有在组名里面的元素.案例中就是把所有不同国家的数据组合在一起显示。元组里面是（索引，分组后的DataFrame）索引就是分组命

for i,j in grouped:
	print(i)
	print("--"*100)
	print(j,type(j))
	pring("***"*100)

在这里插入图片描述

两列来分组

grouped = df["Brand"].groupby(by=[df["Country"],df["State/Provice"]])
.count()
print(grouped)

在这里插入图片描述
会出现一个Series类型，会有两个索引。叫做复式索引

分组后的函数

在这里插入图片描述

选择合适的方法可以计算出分组后的各个数据

print(grouped["Brand"].count()) #对grouped里面的Brand列 算count

#比对两个国家的星巴克店数
country_count = grouped["Brand"].count()
print(country_count["US"])
print(country_count["CN"])

在这里插入图片描述

问题（呈现出店铺总数前十的国家）

file_path = "./starbucks_store_worldwide.csv"

df = pd.read_csv(file_path)
df = df[df["Country"]=="CN"]

#使用matplotlib呈现出店铺总数排名前10的国家
#准备数据
data1 = df.groupby(by="City").count()["Brand"].sort_values(ascending=False)[:25]

_x = data1.index
_y = data1.values

#画图
plt.figure(figsize=(18,15),dpi=100)

# plt.bar(range(len(_x)),_y,width=0.3,color="orange")
plt.barh(range(len(_x)),_y,height=0.3,color="orange")

plt.yticks(range(len(_x)),_x,fontproperties=my_font)

plt.show()

Garciaxx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Day 35 ：分组groupby

Python 回忆录2020/11/10分组（groupby 语句）分组后的遍历分组后的函数问题（呈现出店铺总数前十的国家）2020/11/10分组（groupby 语句）在pandas里分组的操作就是df.groupby(by= "columns_name")返回的是一个DataFrameGroupBy这个类型。这个类型可以遍历，也可以聚合。现在有一个星巴克店铺的统计数据，有如下数据当然也可以进行两列分组df.groupby(by=[df[“Country”],df[“State/Pr
复制链接

扫一扫