Python 数据分析微专业课程--项目03 视频网站数据清洗整理和结论研究

1.项目说明

  • 读取爱奇艺网站数据,对数据进行清洗和整理,分析不同导演电影的好评率,
  • 对2001-2016电影影评人数分析,筛选出当年热门电影

2.项目具体要求

  • 数据清洗 - 去除空值;时间标签转化
  • 分析出不同导演电影的好评率,并筛选出TOP20
  • 统计分析2001-2016年每年评影人数总量,分析每年人数变化规律,筛选查看异常值,看异常值是否是当年热门电影

3.实现思路:

  • 数据清洗:对空值进行填充,数值型字段填充0,非数值型字段填充’缺失数据’;时间字段格式为’xxxx年xx月xx日’,可以使用datetime.datetime.strptime()方法转化为时间标签。
  • 查看数据可知数据是按天获取了一个月的视频数据,因此数据有重复,所以需要筛选出每一部视频最后获取日期的数据。
    可以根据剧名取最大值,获取各剧最后日期的数据,然后根据导演分组求’好评数’和’评分人数’的总数,即可计算得到好评率。
    根据上映年份分组统计该年份评分人数总数,用该数据绘制面积图,可查看每个年份评分人数总数的变化情况。
  • 筛选热门影片可以采用筛选出当年评分人数的异常值,即评分人数特别多的影片。可以先循环绘制各个年份影片评分人数的箱型图。
    来查看异常数据的大致情况。然后筛选数各个年份中评分人数超过上外限区间的影片,即可得到当年的热门影片。

4.实现过程:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
import matplotlib
import datetime
import os

warnings.filterwarnings('ignore')

os.chdir('c://test')
data= pd.read_csv('爱奇艺视频数据.csv',engine = 'python',encoding = 'gbk')

#数据清洗 - 去除空值
#要求:创建函数
#提示:fillna方法填充缺失数据,注意inplace参数
def fillnull(df):
    cols = df.columns
    
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值