Python数据分析案例-中国电影网电影数据可视化分析

今天来给大家分享一个Python数据分析案例-中国电影网电影数据可视化分析

需要用到的包有:pandas,numpy,datetime,matplotlib.pyplot,seaborn,pyecharts,pygwalker

一.  数据获取

Excel数据展示如下:

导入包并获取数据:

# 导入包和数据
import pandas as pd
import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns
from pyecharts.charts import Pie
from pyecharts import options as  opts 
from pyecharts.globals import ThemeType
sns.set_style('ticks')
import warnings
warnings.filterwarnings('ignore') # 忽略警告
plt.rcParams['font.sans-serif'] = ['SimHei'] #解决中文显示
plt.rcParams['axes.unicode_minus'] = False   #解决符号无法显示
 
data = pd.read_excel('moive.xlsx')
data.head()

二. 数据预处理

查看数据信息

data.info()

缺失值处理

# 是否有缺失值
data.isnull().any()
# 删除具有缺失值的行
data.dropna(inplace=True)
data.reset_index(drop=True,inplace=True)

重复值处理

# 删除重复值
data=data.drop_duplicates()
# 检查一下,看看是不是真的删掉了重复行
duplicatedFlag = data.duplicated(keep=False) # 重复的行,均标记为True
booleanIdx = duplicatedFlag.to_numpy()

三. 可视化分析

3.1 时间

3.1.1 各个年份的总票房

分析各个年份的总票房

# 去掉上映日期里面的“(中国)”,方便后续对上映时间的分析
data['上映时间']=pd.to_datetime(data['上映时间'].replace('(中国)',''))
# 新增“上映年份”列
data['上映年份']=data['上映时间'].dt.year
# data['上映年份'] = data['上映时间'].astype('str').apply(lambda x:x.split('-')[0]) 法三
# 观察到“累计票房”列数据类型为“累计票房47159.2万”,需要将数据提取出来
data['票房'] = data['累计票房'].astype('str').apply(lambda x:x[4:][:-1]).astype('float')
# data['票房'] = data['票房'].apply(lambda x : float(x[i]) for i in range(le
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值