数据挖掘实战系列之 Kaggle 练习项目快速入门

最新推荐文章于 2024-06-07 21:32:27 发布

xudailong_blog

最新推荐文章于 2024-06-07 21:32:27 发布

阅读量7.5k

点赞数 10

文章标签：数据挖掘 kaggle练习项目 kaggle数据 pandas 大数据

本文链接：https://blog.csdn.net/xudailong_blog/article/details/80188736

版权

更多精彩原创文章请访问：https://blog.csdn.net/xudailong_blog

（一）关于Kaggle

作为小白只能这样子解释Kaggle了，不敢高声语。

（二）电影数据分析

（一）电影数据下载：
tmdb_5000_movies

这里我们要下载两个文件：

-（二）kaggle的注册：

可能一开始你没有注册kaggle，首先说一下，kaggle用163邮箱是可以注册的，然后校验的时候，你可能需要下个谷歌浏览器助手。

（三）数据分析实战部分（敲黑板）

这里练习用的jupyter notebook工具，python3环境

(一 ) 导入数据：


# 1 导入数据
import json
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt

credits = pd.read_csv("tmdb_5000_credits.csv")
movies = pd.read_csv("tmdb_5000_movies.csv")

(二 ) 查看数据：

# 2 查看credits的数据
credits.head()

# 2.1 查看数据
movies.head()

(三 ) 数据清洗：
（1）合并数据：

complete = pd.concat([credits,movies],axis=1)
complete.info()

由上图可以可以看到有很多columns，这里我们只需提取出自己所需要的

（2）留下所需要的数据，并添加‘利润’一行

# 4 留下需要的数据，并添加‘利润’一行（收入-支出），这里只李露霞自己所关心的数据
movies = complete[['original_title','crew','release_date','genres',
                  'keywords','production_companies','production_countries',
                  'revenue','budget']]

movies['profit']=movies['revenue'] - movies['budget']
movies.info()

这里的报红，请忽略过

pandas知识点：得到一列新数据：movies['profit']=movies['revenue'] - movies['budget']

(3) 处理缺失值并填充

上面的图片有一个用框勾选出来的，相比于其他数据，明显的少了一个值，这里我们找一下，并为它赋值相近的数

# 4.1 处理缺失值 （release_date）
# 这里通过original_title 搜索出其对应的release_date
null_date = movies['release_date'].isnull()
movies.loc[null_date]

# 4.2 填充缺失值
movies.loc[

最低0.47元/天解锁文章

xudailong_blog

关注

10
点赞
踩
80

收藏

觉得还不错? 一键收藏
2
评论
数据挖掘实战系列之 Kaggle 练习项目快速入门

更多精彩原创文章请访问：https://blog.csdn.net/xudailong_blog（一）关于Kaggle作为小白只能这样子解释Kaggle了，不敢高声语。（二）电影数据分析（一）电影数据下载： tmdb_5000_movies这里我们要下载两个文件： -（二）kaggle的注册：可能一开始你没有注册kaggle，首先说一下，kaggle用1...
复制链接

扫一扫