记录我的组队学习之路——基于二手车价格预测比赛——赛题理解

自从毕业之后,都没有好好的系统性进行数据挖掘学习了,基于datawhale这次组织的组队学习,以赛练技,加深自己对数据挖掘过程各个环节的理解。

理解赛题数据

目标:对二手车价格进行预测。
[平常我做的一般都是预测类模型,这次是回归型模型可以好好学一下。]
训练集:15W;
测试集A:5W;
测试集B:5W;
[两个测试集的设置的作用是什么,跨时间,跨区域?]
特征个数:31个,其中15个匿名变量。
[需要猜测匿名变量的含义,有助于后期特征加工。]

特征含义:

  • SaleID - 销售样本ID
  • name -汽车编码
  • regDate - 汽车注册时间
  • model - 车型编码
  • brand - 品牌
  • bodyType - 车身类型
  • uelType - 燃油类型
  • gearbox - 变速箱
  • power - 汽车功率
  • kilometer - 汽车行驶公里
  • notRepairedDamage - 汽车有尚未修复的损坏
  • regionCode - 看车地区编码
  • seller - 销售方
  • offerType - 报价类型
  • creatDate - 广告发布时间
  • price - 汽车价格
  • v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’ 【匿名特征,包含v0-14在内15个匿名特征】  
    数据全部为数值类型;
    [saleid 与name有什么区别,时间类特征需进行转换]

预测指标

平常我做的主要是分类模型和推荐模型
分类模型评价指标:accuracy,Precision,Recall,F-score,Pr曲线,ROC-AUC曲线,也有KS,LIFT;
多分类有accuracy [宏平均和微平均],F-score
[宏平均和微平均]没用过
推荐模型:accuracy ,recall,lift
回归模型:平均绝对误差,均方误差,R2

平均绝对误差MAE(Mean Absolute Error)
在这里插入图片描述
其中yi代表第i个样本的真实值,其中yi^代表第i个样本的预测值;

均方误差
alt
R2
残差平方和
在这里插入图片描述
总平均值
在这里插入图片描述
其中yi-表示y与y的平均值;
得到的R2表达式为:
在这里插入图片描述
R2用于度量因变量的变异中可由自变量解释部分所占的比例,取值范围为0~1,R2越接近1,表示回归平方和占总平方和的比例越来越大,回归线与观测点越接近,用x的变化来解释y变量的部分就越多,回归的拟合程度就越好。所以R2也称为拟合优度的统计量。

分析赛题

  • 回归问题;
  • 会使用xgb,lightgbm,catboost模型;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值