二手车售价预测赛题理解与EDA

最新推荐文章于 2023-04-15 15:31:54 发布

Amihua Lau

最新推荐文章于 2023-04-15 15:31:54 发布

阅读量308

点赞数

文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43913783/article/details/105082005

版权

二手车售价预测赛题理解与EDA

一、赛题理解

1.1讲座重难点

赛题理解的关键（包括但不仅限）
- 比赛的注意事项（数据源、特征说明、任务目标、评价指标（优化的方向））
- 题目所给数据的隐藏条件
实战的一般流程
由自己写的或者官方的Baseline

1.2对于本次题目的理解

1.2.1题目介绍

给了一堆脱敏后的德国二手车数据（超370，000条样本），训练集 ‘used_car_train_20200313.csv’ 包含了20个特征，10万条数据，测试集一共有两个，各5万条测试样本。赛题要求用已知数据，预测而二手车的数量。

1.2.2问题分析

这是一道传统的结构性数据挖掘题目，使用机器学习或深度学习等方法进行建模得到回归预测的结果。

思路如下：

由EDA（Exploratory Data Analysis）对数据进行探索，熟悉所给数据
由EDA的结果对样本特征进行特征工程
模型的训练
调整参数与模型融合
结果可视化与分析

1.2.3模型评价指标 $M A E (M e a n A b s o l u t e E r r o r)$
$\dfrac{1}{N} \sum_{i=1}^{N} \left| y_{i}- \hat y_{i} \right|$

二、EDA的处理

1. pandas.DataFrame.select_dtypes 中对列名的筛选.

Parameter include，exculede（类似列表）
包含/排除dtype或字符串的列表。
必须为至少其中之一传递非空序列。
return DataFrame（源DF的一个子集）
raises
ValueError
- include，exculede都为空
- include，exculede包含重叠元素
- 传入任何的字符串dtype

**TypeError**
传入参数不是序列

2.EDA绘图经验

时序图 观察变量间的周期、振幅
直方图、密度曲线 观察变量的分布情况
多元图散点 观察变量间相关性
箱型图、小提琴图 观察数据异常

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。