数据分组聚合练习和总结

Savannah913

已于 2022-05-29 13:36:24 修改

阅读量319

点赞数

分类专栏：数据分析文章标签： python 机器学习学习数据分析

于 2022-05-29 13:35:48 首次发布

本文链接：https://blog.csdn.net/weixin_45847320/article/details/125027079

版权

数据分析专栏收录该内容

9 篇文章 0 订阅

订阅专栏

DataFrame按照复合索引取值

Series复合索引

练习一：使用matplotlib呈现店铺总数排名前十的国家

练习二：使用matplotlib呈现出中国每个城市的店铺数量

练习三统计书的数量，书的评分情况

DataFrame按照复合索引取值

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt 

df1 = pd.DataFrame(np.array([[0,1,2,3],["d","e","q","q"],["r","r","q","p"]]),index=list("abc"),columns=list("lxyz"))
print(df1)
print("*"*100)

df1 = df1.set_index(["y","z"])
print(df1,type(df1))
print("*"*100)

print(df1.loc["q"])
print("*"*100)

print(df1.swaplevel())#交换两个索引的位置
print("*"*100)

#按照索引取值
print(df1.loc["q"].loc["q"])

Series复合索引

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt 

df1 = pd.DataFrame(np.array([[0,1,2,3],["d","e","q","q"],["r","r","q","p"]]),index=list("abc"),columns=list("lxyz"))
print(df1)
print("*"*100)

df1 = df1.set_index(["y","z"])["x"]
print(df1,type(df1))
print("*"*100)

#按照索引取值
print(df1["q","p"])
print("*"*100)

print(df1.swaplevel())#交换两个索引的位置
print("*"*100)

#按照索引取值
print(df1["q","q"])
print("*"*100)

练习一：使用matplotlib呈现店铺总数排名前十的国家

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

#获取数据
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)

#呈现店铺总数排名前十的国家
df = df.groupby(by="Country").count()["Brand"].sort_values(ascending=False)[:10]

#绘制柱形图
_y = df.values
_x = df.index
print(_y)
plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y)
plt.xticks(range(len(_x)),_x)
plt.show()

练习二：使用matplotlib呈现出中国每个城市的店铺数量

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

#获取数据
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)
df = df[df["Country"]=="CN"]

#呈现出中国每个城市的店铺数量
df = df.groupby(by="City").count()["Brand"].sort_values(ascending=False)[:30]
_x = df.index
_y = df.values
plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y,width=0.3)
plt.xticks(range(len(_x)),_x)
plt.show()

练习三统计书的数量，书的评分情况

现在我们有全球排名靠前的10000本书的数据，那么请统计一下下面几个问题：

不同年份书的数量

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

#获取数据
file_path = "./books.csv"
df = pd.read_csv(file_path)

#处理缺失数据
#由.info()可知，书的年份信息有缺失，年份信息显然不能通过求值来补充，只能删除其所在行数据来处理缺数
data1 = df[pd.notnull(df["original_publication_year"])]#提取出不为nan的数据

#统计操作,不同年份书的数量
grouped = data1.groupby(by="original_publication_year").count()["book_id"]

#不同年份书的平均评分情况\
grouped1 = data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()
print(grouped1)

不同年份书的平均评分情况

#不同年份书的平均评分情况\
grouped1 = data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()

#绘制折线图
_x = grouped1.index
_y = grouped1.values
plt.figure(figsize=(20,8),dpi=80)
plt.plot(range(len(_x)),_y)
#x轴标签太密集，可以设置步长
plt.xticks(list(range(len(_x)))[::10],_x[::10],rotation=45)
plt.show()

Savannah913

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分组聚合练习和总结

DataFrame按照复合索引取值import pandas as pdimport numpy as npfrom matplotlib import pyplot as plt df1 = pd.DataFrame(np.array([[0,1,2,3],["d","e","q","q"],["r","r","q","p"]]),index=list("abc"),columns=list("lxyz"))print(df1)print("*"*100)df1 = df1.s...
复制链接

扫一扫