探索性数据分析的思路整理
- 读取数据
- 清洗数据,对构建的数据进行整理
- 探索全局特征, 通过直方图,散点图,聚合函数对数据进行全局的了解
- 探索数据的分组特征,通过分组操作分析数据集
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('display.width', 500)
pd.set_option('display.max_columns', 100)
def remove_border(axes = None, top=False, right=False, left=True, bottom=True):
ax = axes or plt.gca()
ax.spines['top'].set_visible(top)
ax.spines['right'].set_visible(right)
ax.spines['left'].set_visible(left)
ax.spines['bottom'].set_visible(bottom)
ax.yaxis.set_ticks_position('none')
ax.xaxis.set_ticks_position('none')
if top:
ax.xaxis.tick_top()
if bottom:
ax.xaxis.tick_bottom()
if left:
ax.yaxis.tick_left()
if right:
ax.yaxis.tick_right()
1. 第一步,构建数据框
data = pd.read_csv('movies.csv')
data.head() # 读取数据集
data.info() # 产看列数据的缺失,完整情况
data1 = data.Title # 针对有问题的列进行详细的查看
2. 第二步,数据清洗