Python数据分析案例-中国电影网电影数据可视化分析

笙笙学数分

已于 2023-11-30 08:37:45 修改

阅读量3.8k

点赞数 13

分类专栏： Python 文章标签： python 数据分析

于 2023-11-29 17:33:44 首次发布

本文链接：https://blog.csdn.net/weixin_46954900/article/details/134693087

版权

今天来给大家分享一个Python数据分析案例-中国电影网电影数据可视化分析

需要用到的包有：pandas，numpy，datetime，matplotlib.pyplot，seaborn，pyecharts，pygwalker

一. 数据获取

Excel数据展示如下：

导入包并获取数据：

# 导入包和数据
import pandas as pd
import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns
from pyecharts.charts import Pie
from pyecharts import options as  opts 
from pyecharts.globals import ThemeType
sns.set_style('ticks')
import warnings
warnings.filterwarnings('ignore') # 忽略警告
plt.rcParams['font.sans-serif'] = ['SimHei'] #解决中文显示
plt.rcParams['axes.unicode_minus'] = False   #解决符号无法显示
 
data = pd.read_excel('moive.xlsx')
data.head()

二. 数据预处理

查看数据信息

data.info()

缺失值处理

# 是否有缺失值
data.isnull().any()
# 删除具有缺失值的行
data.dropna(inplace=True)
data.reset_index(drop=True,inplace=True)

重复值处理

# 删除重复值
data=data.drop_duplicates()
# 检查一下，看看是不是真的删掉了重复行
duplicatedFlag = data.duplicated(keep=False) # 重复的行，均标记为True
booleanIdx = duplicatedFlag.to_numpy()

三. 可视化分析

3.1 时间

3.1.1 各个年份的总票房

分析各个年份的总票房

# 去掉上映日期里面的“（中国）”,方便后续对上映时间的分析
data['上映时间']=pd.to_datetime(data['上映时间'].replace('（中国）',''))
# 新增“上映年份”列
data['上映年份']=data['上映时间'].dt.year
# data['上映年份'] = data['上映时间'].astype('str').apply(lambda x:x.split('-')[0]) 法三
# 观察到“累计票房”列数据类型为“累计票房47159.2万”，需要将数据提取出来
data['票房'] = data['累计票房'].astype('str').apply(lambda x:x[4:][:-1]).astype('float')
# data['票房'] = data['票房'].apply(lambda x : float(x[i]) for i in range(le

最低0.47元/天解锁文章