数据挖掘实战系列 之 Kaggle 练习项目快速入门

更多精彩原创文章请访问:https://blog.csdn.net/xudailong_blog

(一)关于Kaggle

image.png

作为小白只能这样子解释Kaggle了,不敢高声语。

(二)电影数据分析

这里我们要下载两个文件:
image.png

-(二)kaggle的注册:

可能一开始你没有注册kaggle,首先说一下,kaggle用163邮箱是可以注册的,然后校验的时候,你可能需要下个谷歌浏览器助手。

(三)数据分析实战部分(敲黑板)

这里练习用的jupyter notebook工具,python3环境

  • (一 ) 导入数据:

# 1 导入数据
import json
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt

credits = pd.read_csv("tmdb_5000_credits.csv")
movies = pd.read_csv("tmdb_5000_movies.csv")
  • (二 ) 查看数据:
# 2 查看credits的数据
credits.head()

image.png

# 2.1 查看数据
movies.head()

image.png

  • (三 ) 数据清洗:
    (1) 合并数据:
complete = pd.concat([credits,movies],axis=1)
complete.info()

image.png

由上图可以可以看到有很多columns,这里我们只需提取出自己所需要的

(2)留下所需要的数据,并添加‘利润’一行

# 4 留下需要的数据,并添加‘利润’一行(收入-支出),这里只李露霞自己所关心的数据
movies = complete[['original_title','crew','release_date','genres',
                  'keywords','production_companies','production_countries',
                  'revenue','budget']]

movies['profit']=movies['revenue'] - movies['budget']
movies.info()

image.png

这里的报红,请忽略过

pandas知识点:得到一列新数据:movies['profit']=movies['revenue'] - movies['budget']

(3) 处理缺失值并填充

上面的图片有一个用框勾选出来的,相比于其他数据,明显的少了一个值,这里我们找一下,并为它赋值相近的数

# 4.1 处理缺失值 (release_date)
# 这里通过original_title 搜索出其对应的release_date
null_date = movies['release_date'].isnull()
movies.loc[null_date]

# 4.2 填充缺失值
movies.loc[
  • 10
    点赞
  • 80
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值