本篇文章分享数据分析中Python常用代码,包括数据预览、数据清洗、特征分析等,每一大类里面也会具体细分,尽可能全面、易懂,之后实际运用中需要哪种可以选择性参考运用。
文中会结合实际案例展示效果,数据集选用上次参加比赛的二手车价格预测为例。
一、数据预览
数据预览,是数据分析的重要一步,数据分析前对数据集进行预览,才能更加了解整个数据结构,做到心中有数。
1.1查看数据表
shape:查看数据大小
# 输出数据的大小信息
print('Train data shape:',Train_data.shape)
Train data shape: (150000, 31) 代表Train data数据集有 150000行数据(不包含首行),31列字段,整体是150000 × 31.
dtyes:查看数据类型
Train_data.dtypes
columns:只查看列名
Train_data.columns
info:查看列名及NAN缺失信息
Train_data.info()
1.2预览数据
head:头
Train_data.head() #默认显示5行
tail:尾
Train_data.tail()
append:头+尾
Train_data.head().append(Train_data.tail())
注:如果想显示中间隐藏的列...,可以添加如下代码
pd.set_option('display.max_column',None) #展示所有列
1.3描述统计
describe:查看数值特征列的一些统计信息
Train_data.describe()
describe(include=['O']):查看object特征列的一些统计信息
describe(include=['O'])
二、数据清洗
2.1查看各列缺失值
查看缺失值:
Train_data.isnull().sum()
计算缺失率:
Train_data.describe().T.assign(missing_pct=Train_data.apply(lambda x :(len(x)-x.count())/len(x)))
缺失值可视化:
missing = Train_data.isnull().sum()
missing = missing[missing > 0]
missing.sort_va