python豆瓣TOP250数据分析

最新推荐文章于 2024-06-03 20:12:05 发布

混吃等死的牛

最新推荐文章于 2024-06-03 20:12:05 发布

阅读量1.2k

点赞数 1

分类专栏： py学习文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_45681381/article/details/119377932

版权

py学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

接上一篇博客，从豆瓣爬取到数据：https://blog.csdn.net/weixin_45681381/article/details/119173749?spm=1001.2014.3001.5501

一.将excel的数据转化为csv数据

import pandas as pd
ex = pd.read_excel('豆瓣Top250.xls', 'Sheet1', index_col=0)
ex.to_csv("豆瓣Top250.csv", encoding="utf-8")

遇到的问题，需要在第二行代码中增加参数index_col=0，不然会在导出的csv最右边多出一列。

二. 预览一下数据，看有没有问题

import pandas as pda
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rcParams['font.family'] = 'SimHei'
mpl.rcParams['axes.unicode_minus'] = False
mpl.rcParams['font.size'] = 15
df = pd.read_csv('豆瓣Top250.csv')
display(df)

在这里插入图片描述

三.对数据可视化

1.电影评分

df['电影评分'] = df['电影评分'].str.rstrip('分')
df['电影评分'] = df['电影评分'].astype(np.float64)
score = df['电影评分'].value_counts().sort_index()

plt.figure(figsize=(8, 5))
score.plot(kind='bar', color='orange', width=0.7)
plt.xlabel('豆瓣电影TOP250')
plt.ylabel('count')
plt.title('电影评分数量柱状图')

在这里插入图片描述

2.制片国家的上榜数排名情况

df_country = df['制片国家'].str.split(' ',expand = True)
ct1 = df_country.apply(pd.value_counts).fillna('0')
ct1 = ct1.astype(np.int64)
ct1['count'] = ct1.sum(axis = 1)
ct1.sort_values('count', ascending = False, inplace = True)
ct1['count'].plot.bar(figsize = (12,5), color = 'royalblue', legend = True, width = 0.6)

在这里插入图片描述

3.上榜导演（前10）

df_director = df['导演'].str.split(' / ', expand=True)
drt1 = df_director.apply(pd.value_counts).fillna('0')
drt1 = drt1.astype(np.int64)
drt1['count'] = drt1.sum(axis=1)
drt1.sort_values('count', ascending=False, inplace=True)
drt1.drop([0, 1], axis=1, inplace=True)
drt1.index.name = '导演'
display(drt1[:10])

在这里插入图片描述

混吃等死的牛

关注

1
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
python豆瓣TOP250数据分析

接上一篇博客，从豆瓣爬取到数据：https://blog.csdn.net/weixin_45681381/article/details/119173749?spm=1001.2014.3001.5501一.将excel的数据转化为csv数据import pandas as pdex = pd.read_excel('豆瓣Top250.xls', 'Sheet1', index_col=0)ex.to_csv("豆瓣Top250.csv", encoding="utf-8")遇到的问题，需要在
复制链接

扫一扫