数据分析之Python干货笔记

本文分享了Python在数据分析中的应用,涵盖数据预览、数据清洗和特征分析。通过实例展示了数据预览的多种方法,如查看数据类型、缺失值和描述统计。在数据清洗部分,讨论了处理缺失值和异常值的策略。特征分析部分则涉及类别和数字特征的分析方法,包括可视化和相关性研究。此外,文章还提供了Python学习路线和实战案例,适合Python初学者和进阶者参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本篇文章分享数据分析中Python常用代码,包括数据预览、数据清洗、特征分析等,每一大类里面也会具体细分,尽可能全面、易懂,之后实际运用中需要哪种可以选择性参考运用。

文中会结合实际案例展示效果,数据集选用上次参加比赛的二手车价格预测为例。

一、数据预览

数据预览,是数据分析的重要一步,数据分析前对数据集进行预览,才能更加了解整个数据结构,做到心中有数。

1.1查看数据表

shape:查看数据大小

# 输出数据的大小信息
print('Train data shape:',Train_data.shape)

Train data shape: (150000, 31) 代表Train data数据集有 150000行数据(不包含首行),31列字段,整体是150000 × 31.

dtyes:查看数据类型

Train_data.dtypes

columns:只查看列名

Train_data.columns

info:查看列名及NAN缺失信息

Train_data.info()

1.2预览数据

head:头

Train_data.head()   #默认显示5行

tail:尾

Train_data.tail()

append:头+尾

Train_data.head().append(Train_data.tail())

注:如果想显示中间隐藏的列...,可以添加如下代码

pd.set_option('display.max_column',None)    #展示所有列

1.3描述统计

describe:查看数值特征列的一些统计信息

Train_data.describe()

describe(include=['O']):查看object特征列的一些统计信息

describe(include=['O'])

二、数据清洗

2.1查看各列缺失值

查看缺失值:

Train_data.isnull().sum()

计算缺失率:

Train_data.describe().T.assign(missing_pct=Train_data.apply(lambda x :(len(x)-x.count())/len(x)))

缺失值可视化:

missing = Train_data.isnull().sum()
missing = missing[missing > 0]
missing.sort_va
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值