更多精彩原创文章请访问:https://blog.csdn.net/xudailong_blog
(一)关于Kaggle
作为小白只能这样子解释Kaggle了,不敢高声语。
(二)电影数据分析
- (一)电影数据下载:
tmdb_5000_movies
这里我们要下载两个文件:
-(二)kaggle的注册:
可能一开始你没有注册kaggle,首先说一下,kaggle用163邮箱是可以注册的,然后校验的时候,你可能需要下个谷歌浏览器助手。
(三)数据分析实战部分(敲黑板)
这里练习用的jupyter notebook工具,python3环境
- (一 ) 导入数据:
# 1 导入数据
import json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
credits = pd.read_csv("tmdb_5000_credits.csv")
movies = pd.read_csv("tmdb_5000_movies.csv")
- (二 ) 查看数据:
# 2 查看credits的数据
credits.head()
# 2.1 查看数据
movies.head()
- (三 ) 数据清洗:
(1) 合并数据:
complete = pd.concat([credits,movies],axis=1)
complete.info()
由上图可以可以看到有很多columns,这里我们只需提取出自己所需要的
(2)留下所需要的数据,并添加‘利润’一行
# 4 留下需要的数据,并添加‘利润’一行(收入-支出),这里只李露霞自己所关心的数据
movies = complete[['original_title','crew','release_date','genres',
'keywords','production_companies','production_countries',
'revenue','budget']]
movies['profit']=movies['revenue'] - movies['budget']
movies.info()
这里的报红,请忽略过
pandas知识点:得到一列新数据:movies['profit']=movies['revenue'] - movies['budget']
(3) 处理缺失值并填充
上面的图片有一个用框勾选出来的,相比于其他数据,明显的少了一个值,这里我们找一下,并为它赋值相近的数
# 4.1 处理缺失值 (release_date)
# 这里通过original_title 搜索出其对应的release_date
null_date = movies['release_date'].isnull()
movies.loc[null_date]
# 4.2 填充缺失值
movies.loc[