数据分析之Python干货笔记

本篇文章分享数据分析中Python常用代码,包括数据预览、数据清洗、特征分析等,每一大类里面也会具体细分,尽可能全面、易懂,之后实际运用中需要哪种可以选择性参考运用。文中会结合实际案例展示效果,数据集选用上次参加比赛的二手车价格预测为例。
摘要由CSDN通过智能技术生成

本篇文章分享数据分析中Python常用代码,包括数据预览、数据清洗、特征分析等,每一大类里面也会具体细分,尽可能全面、易懂,之后实际运用中需要哪种可以选择性参考运用。

文中会结合实际案例展示效果,数据集选用上次参加比赛的二手车价格预测为例。

一、数据预览

数据预览,是数据分析的重要一步,数据分析前对数据集进行预览,才能更加了解整个数据结构,做到心中有数。

1.1查看数据表

shape:查看数据大小

# 输出数据的大小信息
print('Train data shape:',Train_data.shape)

Train data shape: (150000, 31) 代表Train data数据集有 150000行数据(不包含首行),31列字段,整体是150000 × 31.

dtyes:查看数据类型

Train_data.dtypes

columns:只查看列名

Train_data.columns

info:查看列名及NAN缺失信息

Train_data.info()

1.2预览数据

head:头

Train_data.head()   #默认显示5行

tail:尾

Train_data.tail()

append:头+尾

Train_data.head().append(Train_data.tail())

注:如果想显示中间隐藏的列...,可以添加如下代码

pd.set_option('display.max_column',None)    #展示所有列

1.3描述统计

describe:查看数值特征列的一些统计信息

Train_data.describe()

describe(include=['O']):查看object特征列的一些统计信息

describe(include=['O'])

二、数据清洗

2.1查看各列缺失值

查看缺失值:

Train_data.isnull().sum()

计算缺失率:

Train_data.describe().T.assign(missing_pct=Train_data.apply(lambda x :(len(x)-x.count())/len(x)))

缺失值可视化:

missing = Train_data.isnull().sum()
missing = missing[missing > 0]
miss
  • 2
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值