记录我的组队学习之路——基于二手车价格预测比赛——赛题理解

最新推荐文章于 2022-09-01 06:00:00 发布

wrp335

最新推荐文章于 2022-09-01 06:00:00 发布

阅读量178

点赞数

分类专栏：数据挖掘机器学习 Python 文章标签：数据挖掘机器学习 python

本文链接：https://blog.csdn.net/weixin_43971889/article/details/104989436

版权

数据挖掘同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

机器学习

4 篇文章 0 订阅

订阅专栏

Python

3 篇文章 0 订阅

订阅专栏

自从毕业之后，都没有好好的系统性进行数据挖掘学习了，基于datawhale这次组织的组队学习，以赛练技，加深自己对数据挖掘过程各个环节的理解。

理解赛题数据

目标：对二手车价格进行预测。
[平常我做的一般都是预测类模型，这次是回归型模型可以好好学一下。]
训练集：15W;
测试集A：5W;
测试集B：5W;
[两个测试集的设置的作用是什么，跨时间，跨区域？]
特征个数：31个，其中15个匿名变量。
[需要猜测匿名变量的含义，有助于后期特征加工。]

特征含义：

SaleID - 销售样本ID
name -汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
uelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’ 【匿名特征，包含v0-14在内15个匿名特征】　
数据全部为数值类型；
[saleid 与name有什么区别，时间类特征需进行转换]

预测指标

平常我做的主要是分类模型和推荐模型
分类模型评价指标：accuracy,Precision,Recall,F-score,Pr曲线，ROC-AUC曲线，也有KS，LIFT;
多分类有accuracy [宏平均和微平均],F-score
[宏平均和微平均]没用过
推荐模型：accuracy ,recall,lift
回归模型：平均绝对误差，均方误差,R2

平均绝对误差MAE(Mean Absolute Error)
在这里插入图片描述
其中y_i代表第i个样本的真实值，其中y_i^代表第i个样本的预测值；

均方误差
alt
R²
残差平方和：
在这里插入图片描述
总平均值：

其中y_i^-表示y与y的平均值;
得到的R2表达式为：

R2用于度量因变量的变异中可由自变量解释部分所占的比例，取值范围为0~1，R2越接近1，表示回归平方和占总平方和的比例越来越大，回归线与观测点越接近，用x的变化来解释y变量的部分就越多，回归的拟合程度就越好。所以R2也称为拟合优度的统计量。

分析赛题

回归问题;
会使用xgb,lightgbm,catboost模型;

wrp335

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
记录我的组队学习之路——基于二手车价格预测比赛——赛题理解

自从毕业之后，都没有好好的系统性进行数据挖掘学习了，基于datawhale这次组织的组队学习，以赛练技，加深自己对数据挖掘过程各个环节的理解。理解赛题数据目标：对二手车价格进行预测。*[平常我做的一般都是预测类模型，这次是回归型模型可以好好学一下。]训练集：15W;测试集A：5W;测试集B：5W;两个测试集的设置的作用是什么，跨时间，跨区域？特征个数：31个，其中15个匿名变量。...
复制链接

扫一扫

专栏目录