二手车交易价格预测
分析二手车交易记录,预测二手车交易价格,得准确率。其中15万条作为训练集,5万条作为测试集A,5万条作为测试集B。
评测标准
MAE,平均绝对值误差:预测值与实际值之差除以个数
解题思路
- 典型回归问题,应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。
- 赛题可行性
- 赛题背景-赛题任务-任务逻辑
- 赛题数据-关联逻辑-外在数据
- 问题类型-使用指标-线上线下的一致性
- 业务原始特征了解-EDA寻求直接关系-构造特征
- 难点关键点挖掘-问题预估预判-数据判断
- 评价指标确定-本地模型验证-误差敏感差异性
- 隐藏条件挖掘-高效性-异常处理-运行时间-鲁棒性
- 效果不好-复盘问题
知识点总结
- 评估标准
-
回归问题:MAE平均绝对值误差,MSE平均平方误差,
-
分类问题:对于二类分类器/分类算法,评价指标主要有accuracy,[Precision,Recall,F-score,Pr曲线],ROC-AUC曲线;对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。
## accuracy
from sklearn.metrics import accuracy_score
## Precision,Recall,F1-score
from sklearn import metrics
## AUC
import numpy as np
from sklearn.metrics import roc_auc_score
import numpy as np
from sklearn import metrics
# MAPE需要自己实现
def mape(y_true, y_pred):
return np.mean(np.abs((y_pred - y_true) / y_true))
## R2-score
from sklearn.metrics import r2_score