Pandas(2)

一、思考练习

对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?

思路:重新构造一个全为0的数组,列名为分类,如果某一条数据中分类出现过,就让0变为1

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

file_path = "./IMDB-Movie-Data.csv"

df = pd.read_csv(file_path)

# 统计分类的列表
temp_list = df["Genre"].str.split(",").tolist()

genre_list = list(set([i for j in temp_list for i in j]))

# 构造全为0的数组
zero_df = pd.DataFrame(np.zeros((df.shape[0], len(genre_list))), columns=genre_list)

# 给每个电影出现分类的位置赋值1
for i in range(df.shape[0]):
    zero_df.loc[i, temp_list[i]] = 1

# 统计每个分类的电影的数量和
genre_count = zero_df.sum(axis=0)

# 排序
genre_count = genre_count.sort_values()

_x = genre_count.index
_y = genre_count.values
# 画图
plt.figure(figsize=(20, 8), dpi=80)
plt.bar(range(len(_x)), _y, width=0.3, color="orange")
plt.xticks(range(len(_x)), _x)
plt.grid()
plt.show()

执行结果

     1.2 join方法

1.3 merge方法

二、分组、聚合

import pandas as pd
import numpy as np

fil_path = "./starbucks_store_worldwide.csv"

df = pd.read_csv(fil_path)
# 分组(按国家)
#groupd = df.groupby("Country")

# DataFrameGroupBy可以进行遍历
# i是元组,每个i包括一个DataFrame(信息为每个国家的所有信息)
# for i in groupd:
#     print(i)
#     print("-"*100)
# df[df["Country"] = "US"]
# 调用聚合方法
# country_count = groupd["Brand"].count()
# print(country_count["US"])
# print(country_count["CN"])

# 统计中国每个省份的星巴克的数量
china_data = df[df["Country"] == "CN"]

grouped = china_data.groupby(by="State/Province").count()["Brand"]

print(grouped)

Q1、使用matplotlib呈现店铺总数排名前十的国家

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

file_path = "./starbucks_store_worldwide.csv"

df = pd.read_csv(file_path)

# 使用matplotlib呈现店铺总数排名前十的国家
# 准备数据
data1 = df.groupby(by="Country").count()["Brand"].sort_values(ascending=False)[:10]

_x = data1.index
_y = data1.values

plt.figure(figsize=(20, 8), dpi=80)

plt.bar(range(len(_x)), _y)

plt.xticks(range(len(_x)), _x)

plt.show()



结果

 Q2、使用matplotlib呈现出每个中国每个城市的店铺数量

 

import matplotlib
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

file_path = "./starbucks_store_worldwide.csv"

df = pd.read_csv(file_path)
df = df[df["Country"] == 'CN']

# 使用matplotlib呈现出每个中国每个城市的店铺数量
# 准备数据
data1 = df.groupby(by="City").count()["Brand"].sort_values(ascending=False)[:10]

_x = data1.index
_y = data1.values

#设置中文字体
font = {'family': 'MicroSoft YaHei',
        'weight': 'bold'}

matplotlib.rc("font", **font)

plt.figure(figsize=(20, 8), dpi=80)

plt.barh(range(len(_x)), _y, height=0.3, color="orange")

plt.yticks(range(len(_x)), _x)

plt.show()



 结果

         Q3、现在我们有全球排名靠前的10000本书的数据,那么请统计一下下面几个问题:

                       1、 不同年份书的数量

                       2、 不同年份书的平均评分情况

# 现在我们有全球排名靠前的10000本书的数据,那么请统计一下下面几个问题:
# 不同年份书的数量
# 不同年份书的平均评分情况
import matplotlib
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

# 取数据
file_path = "./books.csv"
df = pd.read_csv(file_path)

print(df.head(1))
print(df.info())


data1 = df[pd.notnull(df["original_publication_year"])]
groups = data1.groupby(by="original_publication_year").count()["title"]

# 不同年份书的平均评分情况

# data1 = df[pd.notnull(df["original_publication_year"])]
# groups = data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()
_x = groups.index
_y = groups.values

# 设置中文字体
font = {'family': 'MicroSoft YaHei',
        'weight': 'bold'}

matplotlib.rc("font", **font)

plt.figure(figsize=(20, 8), dpi=80)

plt.plot(range(len(_x)), _y)

plt.show()

结果(上问题1、下问题2)

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值