探索性数据分析的思路整理

本文整理了探索性数据分析的步骤,包括构建数据框、数据清洗、全局特征探索及分组分析。在数据清洗环节,指出电影时长、流派和上映年份存在的问题。通过describe方法、可视化和聚合函数深入理解数据全局特性。
摘要由CSDN通过智能技术生成

探索性数据分析的思路整理

  1. 读取数据
  2. 清洗数据,对构建的数据进行整理
  3. 探索全局特征, 通过直方图,散点图,聚合函数对数据进行全局的了解
  4. 探索数据的分组特征,通过分组操作分析数据集
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('display.width', 500)
pd.set_option('display.max_columns', 100)
def remove_border(axes = None, top=False, right=False, left=True, bottom=True):
    ax = axes or plt.gca()
    ax.spines['top'].set_visible(top)
    ax.spines['right'].set_visible(right)
    ax.spines['left'].set_visible(left)
    ax.spines['bottom'].set_visible(bottom)
    
    ax.yaxis.set_ticks_position('none')
    ax.xaxis.set_ticks_position('none')
    
    if top:
        ax.xaxis.tick_top()
    if bottom:
        ax.xaxis.tick_bottom()
    if left:
        ax.yaxis.tick_left()
    if right:
        ax.yaxis.tick_right()

1. 第一步,构建数据框

data = pd.read_csv('movies.csv')
data.head() # 读取数据集
data.info() # 产看列数据的缺失,完整情况
data1 = data.Title # 针对有问题的列进行详细的查看

2. 第二步,数据清洗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值