自从毕业之后,都没有好好的系统性进行数据挖掘学习了,基于datawhale这次组织的组队学习,以赛练技,加深自己对数据挖掘过程各个环节的理解。
理解赛题数据
目标:对二手车价格进行预测。
[平常我做的一般都是预测类模型,这次是回归型模型可以好好学一下。]
训练集:15W;
测试集A:5W;
测试集B:5W;
[两个测试集的设置的作用是什么,跨时间,跨区域?]
特征个数:31个,其中15个匿名变量。
[需要猜测匿名变量的含义,有助于后期特征加工。]
特征含义:
- SaleID - 销售样本ID
- name -汽车编码
- regDate - 汽车注册时间
- model - 车型编码
- brand - 品牌
- bodyType - 车身类型
- uelType - 燃油类型
- gearbox - 变速箱
- power - 汽车功率
- kilometer - 汽车行驶公里
- notRepairedDamage - 汽车有尚未修复的损坏
- regionCode - 看车地区编码
- seller - 销售方
- offerType - 报价类型
- creatDate - 广告发布时间
- price - 汽车价格
- v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’ 【匿名特征,包含v0-14在内15个匿名特征】
数据全部为数值类型;
[saleid 与name有什么区别,时间类特征需进行转换]
预测指标
平常我做的主要是分类模型和推荐模型
分类模型评价指标:accuracy,Precision,Recall,F-score,Pr曲线,ROC-AUC曲线,也有KS,LIFT;
多分类有accuracy [宏平均和微平均],F-score
[宏平均和微平均]没用过
推荐模型:accuracy ,recall,lift
回归模型:平均绝对误差,均方误差,R2
平均绝对误差MAE(Mean Absolute Error)
其中yi代表第i个样本的真实值,其中yi^代表第i个样本的预测值;
均方误差
R2
残差平方和:
总平均值:
其中yi-表示y与y的平均值;
得到的R2表达式为:
R2用于度量因变量的变异中可由自变量解释部分所占的比例,取值范围为0~1,R2越接近1,表示回归平方和占总平方和的比例越来越大,回归线与观测点越接近,用x的变化来解释y变量的部分就越多,回归的拟合程度就越好。所以R2也称为拟合优度的统计量。
分析赛题
- 回归问题;
- 会使用xgb,lightgbm,catboost模型;