天池二手车交易价格预测--赛题理解与数据探索性分析

最新推荐文章于 2024-06-18 10:25:52 发布

Foina数据分析狮

最新推荐文章于 2024-06-18 10:25:52 发布

阅读量549

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/xiaoxiaoliluo917/article/details/105081374

版权

本文详细解读了一个二手车交易价格预测的赛题，数据来源于某交易平台，包含40w条记录和31个变量。数据中15列是匿名特征，已进行label encoding处理。在数据探索性分析部分，作者介绍了加载库、数据概览、缺失值检查、预测值分布分析、特征分类及数字特征和类别特征的相关性、分布等深入分析。

摘要由CSDN通过智能技术生成

一、赛题理解
1.1赛题概述
赛题以预测二手车的交易价格为任务，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。
具体的数据表如下：
SaleID - 销售样本ID
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’ 【匿名特征，包含v0-14在内15个匿名特征】
数字全都脱敏处理，都为label encoding形式，即数字形式.
二、 EDA-数据探索性分析
2.1 内容介绍
1.载入各种数据科学以及可视化库:
数据科学库 pandas、numpy、scipy；可视化库 matplotlib、seabon；其他；
2.载入数据：
载入训练集和测试集；简略观察数据(head()+shape)；
3.数据总览:
通过describe()来熟悉数据的相关统计量；通过info()来熟悉数据类型
4.判断数据缺

最低0.47元/天解锁文章

Foina数据分析狮

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
天池二手车交易价格预测--赛题理解与数据探索性分析

一、赛题理解1.1赛题概述赛题以预测二手车的交易价格为任务，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。具体的数据表如下：SaleID - 销售样本IDname - 汽车编码regDate - 汽车注册时间model - 车型编码brand - 品牌bodyType - 车身类型fuelType - 燃油类型gearbo...
复制链接

扫一扫

专栏目录