数据分组聚合练习和总结

目录

 DataFrame按照复合索引取值

 Series复合索引

 练习一:使用matplotlib呈现店铺总数排名前十的国家

练习二:使用matplotlib呈现出中国每个城市的店铺数量

练习三 统计书的数量,书的评分情况


 DataFrame按照复合索引取值

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt 

df1 = pd.DataFrame(np.array([[0,1,2,3],["d","e","q","q"],["r","r","q","p"]]),index=list("abc"),columns=list("lxyz"))
print(df1)
print("*"*100)

df1 = df1.set_index(["y","z"])
print(df1,type(df1))
print("*"*100)

print(df1.loc["q"])
print("*"*100)

print(df1.swaplevel())#交换两个索引的位置
print("*"*100)

#按照索引取值
print(df1.loc["q"].loc["q"])

 Series复合索引

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt 

df1 = pd.DataFrame(np.array([[0,1,2,3],["d","e","q","q"],["r","r","q","p"]]),index=list("abc"),columns=list("lxyz"))
print(df1)
print("*"*100)

df1 = df1.set_index(["y","z"])["x"]
print(df1,type(df1))
print("*"*100)

#按照索引取值
print(df1["q","p"])
print("*"*100)

print(df1.swaplevel())#交换两个索引的位置
print("*"*100)

#按照索引取值
print(df1["q","q"])
print("*"*100)

 练习一:使用matplotlib呈现店铺总数排名前十的国家

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

#获取数据
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)

#呈现店铺总数排名前十的国家
df = df.groupby(by="Country").count()["Brand"].sort_values(ascending=False)[:10]

#绘制柱形图
_y = df.values
_x = df.index
print(_y)
plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y)
plt.xticks(range(len(_x)),_x)
plt.show()

练习二:使用matplotlib呈现出中国每个城市的店铺数量

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

#获取数据
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)
df = df[df["Country"]=="CN"]

#呈现出中国每个城市的店铺数量
df = df.groupby(by="City").count()["Brand"].sort_values(ascending=False)[:30]
_x = df.index
_y = df.values
plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y,width=0.3)
plt.xticks(range(len(_x)),_x)
plt.show()

练习三 统计书的数量,书的评分情况

现在我们有全球排名靠前的10000本书的数据,那么请统计一下下面几个问题:

不同年份书的数量

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

#获取数据
file_path = "./books.csv"
df = pd.read_csv(file_path)

#处理缺失数据
#由.info()可知,书的年份信息有缺失,年份信息显然不能通过求值来补充,只能删除其所在行数据来处理缺数
data1 = df[pd.notnull(df["original_publication_year"])]#提取出不为nan的数据

#统计操作,不同年份书的数量
grouped = data1.groupby(by="original_publication_year").count()["book_id"]

#不同年份书的平均评分情况\
grouped1 = data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()
print(grouped1)

不同年份书的平均评分情况

#不同年份书的平均评分情况\
grouped1 = data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()

#绘制折线图
_x = grouped1.index
_y = grouped1.values
plt.figure(figsize=(20,8),dpi=80)
plt.plot(range(len(_x)),_y)
#x轴标签太密集,可以设置步长
plt.xticks(list(range(len(_x)))[::10],_x[::10],rotation=45)
plt.show()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值