主要内容
理解赛题数据和目标,清楚评分体系。
赛题
零基础入门数据挖掘 - 二手车交易价格预测。
链接:零基础入门数据挖掘 - 二手车交易价格预测
了解赛题
赛题概况
赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。
数据概况
一般而言,对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征,就是未告知数据列所属的性质的特征列。
train.csv
- SaleID - 销售样本ID
- name - 汽车编码
- regDate - 汽车注册时间
- model - 车型编码
- brand - 品牌
- bodyType - 车身类型
- fuelType - 燃油类型
- gearbox - 变速箱
- power - 汽车功率
- kilometer - 汽车行驶公里
- notRepairedDamage - 汽车有尚未修复的损坏
- regionCode - 看车地区编码
- seller - 销售方
- offerType - 报价类型
- creatDate - 广告发布时间
- price - 汽车价格
- v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’ 【匿名特征,包含v0-14在内15个匿名特征】
数字全都脱敏处理,都为label encoding形式,即数字形式
预测指标
本赛题的评价标准为MAE(Mean Absolute Error):
M
A
E
=
∑
i
=
1
n
∣
y
i
−
y
^
i
∣
n
MAE = \frac {\sum_{i=1}^n|y_i-\widehat{y}_i|}n{}
MAE=n∑i=1n∣yi−y
i∣其中,
y
i
y_i
yi代表第i个样本的真实值,
y
^
i
\widehat{y}_i
y
i代表第i个样本的预测值。
一般问题评价指标说明:
评估指标的定义:
评估指标即是我们对于一个模型效果的数值型量化。(有点类似与对于一个商品评价打分,而这是针对于模型效果和理想效果之间的一个打分)
一般来说分类和回归问题的评价指标有如下一些形式:
分类算法常见的评估指标:
- 对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。
- 对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。
回归预测类常见的评估指标:
- 平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), 可决系数 R 2 R^2 R2(R-Square)
平均绝对误差(MAE)能够更好地反映预测值与真实值误差的实际情况,其计算公式:
M
A
E
=
1
N
∑
i
=
1
n
∣
y
i
−
y
^
i
∣
MAE = \frac{1}{N}\sum_{i=1}^n|y_i-\widehat{y}_i|
MAE=N1i=1∑n∣yi−y
i∣
均方误差(MSE)的计算公式为:
M
S
E
=
1
N
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
MSE = \frac{1}{N}\sum_{i=1}^n(y_i-\widehat{y}_i)^2
MSE=N1i=1∑n(yi−y
i)2
R
2
R^2
R2(R-Square)的计算公式为:
R
2
=
1
−
S
S
r
e
s
S
S
t
o
t
=
1
−
∑
(
y
i
−
y
^
i
)
2
∑
(
y
i
−
y
‾
i
)
2
R^2 = 1-\frac{SS_{res}}{SS_{tot}}=1-\frac{\sum(y_i-\widehat{y}_i)^2}{\sum(y_i-\overline{y}_i)^2}
R2=1−SStotSSres=1−∑(yi−yi)2∑(yi−y
i)2其中,
y
i
y_i
yi表示真实值,
y
^
i
\widehat{y}_i
y
i表示预测值,
y
‾
i
\overline{y}_i
yi表示样本均值,
S
S
r
e
s
SS_{res}
SSres为 y 对回归方程的方差
S
S
r
e
s
=
∑
(
y
i
−
y
^
i
)
2
SS_{res}=\sum(y_i-\widehat{y}_i)^2
SSres=∑(yi−y
i)2,
S
S
t
o
t
SS_{tot}
SStot为 y 的总方差
S
S
r
e
s
=
∑
(
y
i
−
y
‾
i
)
2
SS_{res}=\sum(y_i-\overline{y}_i)^2
SSres=∑(yi−yi)2,
(
y
i
−
y
^
i
)
(y_i-\widehat{y}_i)
(yi−y
i)为残差,是拟合方程中不能解释的部分,用1减去不能解释的部分,那么剩下的就是可解释的部分,也就是说自变量解释了因变量变动的百分比的多少,那么R2的值肯定是越大越好,意味着该模型把 y 的变动解释得很好,R2的范围显然是0到1,在预测实践中,人们往往采纳R2最高的模型。
分析赛题
- 此题为传统的数据挖掘问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
- 此题是一个典型的回归问题。
- 主要应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。
- 通过EDA来挖掘数据的联系和自我熟悉数据。
代码示例
本部分为对于数据读取和指标评价的示例。
数据读取pandas
import pandas as pd
import numpy as np
#1.载入训练集和测试集
path = ./used_car_data/'
Train_data = pd.read_csv(path + 'used_car_train_20200313.csv',sep = ' ')
Test_data = pa.read_csv(path + 'used_car_testA_20200313.csv',sep = ' ')
print('Train data shape:',Train_data.shape)
print('TestA data shape:',Test_data.shape)
print(Train_data.head())
输出:
Train data shape: (150000, 31)
TestA data shape: (50000, 30)
分类结果评价指标计算
#accuracy
import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [0,1,0,1]
y_true = [0,1,1,1]
print('ACC:',accuracy_score(y_true,y_pred))
输出:
ACC: 0.75
## Precision,Recall,F1-score
from sklearn import metrics
y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]
print('Precision',metrics.precision_score(y_true, y_pred))
print('Recall',metrics.recall_score(y_true, y_pred))
print('F1-score:',metrics.f1_score(y_true, y_pred))
输出:
Precision 1.0
Recall 0.5
F1-score: 0.666666666667
## AUC
import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print('AUC socre:',roc_auc_score(y_true, y_scores))
输出:
AUC socre: 0.75
回归结果评价指标
# coding=utf-8
import numpy as np
from sklearn import metrics
# MAPE需要自己实现
def mape(y_true, y_pred):
return np.mean(np.abs((y_pred - y_true) / y_true))
y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.8, 3.2, 3.0, 4.8, -2.2])
# MSE
print('MSE:',metrics.mean_squared_error(y_true, y_pred))
# RMSE
print('RMSE:',np.sqrt(metrics.mean_squared_error(y_true, y_pred)))
# MAE
print('MAE:',metrics.mean_absolute_error(y_true, y_pred))
# MAPE
print('MAPE:',mape(y_true, y_pred))
输出:
MSE: 0.287142857143
RMSE: 0.535857123815
MAE: 0.414285714286
MAPE: 0.14619047619
## R2-score
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print('R2-score:',r2_score(y_true, y_pred))
输出:
R2-score: 0.948608137045
经验总结
作为切入一道赛题的基础,赛题理解是极其重要的,对于赛题的理解甚至会影响后续的特征工程构建以及模型的选择,最主要是会影响后续发展工作的方向,比如挖掘特征的方向或者存在问题解决问题的方向,对了赛题背后的思想以及赛题业务逻辑的清晰,也很有利于花费更少时间构建更为有效的特征模型,赛题理解要达到的地步是什么呢,把一道赛题转化为一种宏观理解的解决思路。 以下将从多方面对于此进行说明:
1) 赛题理解究竟是理解什么: 理解赛题是不是把一道赛题的背景介绍读一遍就OK了呢?并不是的,理解赛题其实也是从直观上梳理问题,分析问题是否可行的方法,有多少可行度,赛题做的价值大不大,理清一道赛题要从背后的赛题背景引发的赛题任务,理解其中的任务逻辑,可能对于赛题有意义的外在数据有哪些,并对于赛题数据有一个初步了解,知道现在和任务的相关数据有哪些,其中数据之间的关联逻辑是什么样的。 对于不同的问题,在处理方式上的差异是很大的。如果用简短的话来说,并且在比赛的角度或者做工程的角度,就是该赛题符合的问题是什么问题,大概要去用哪些指标,哪些指标是否会做到线上线下的一致性,是否有效的利于我们进一步的探索更高线上分数的线下验证方法,在业务上,你是否对很多原始特征有很深刻的了解,并且可以通过EDA来寻求他们直接的关系,最后构造出满意的特征。
2) 有了赛题理解后能做什么: 在对于赛题有了一定的了解后,分析清楚了问题的类型性质和对于数据理解的这一基础上,是不是赛题理解就做完了呢? 并不是的,就像摸清了敌情后,我们至少就要有一些相应的理解分析,比如这题的难点可能在哪里,关键点可能在哪里,哪些地方可以挖掘更好的特征,用什么样得线下验证方式更为稳定,出现了过拟合或者其他问题,估摸可以用什么方法去解决这些问题,哪些数据是可靠的,哪些数据是需要精密的处理的,哪部分数据应该是关键数据(背景的业务逻辑下,比如CTR的题,一个寻常顾客大体会有怎么样的购买行为逻辑规律,或者风电那种题,如果机组比较邻近,相关一些风速,转速特征是否会很近似)。这时是在一个宏观的大体下分析的,有助于摸清整个题的思路脉络,以及后续的分析方向。
3) 赛题理解的-评价指标: 为什么要把这部分单独拿出来呢,因为这部分会涉及后续模型预测中两个很重要的问题: 1. 本地模型的验证方式,很多情况下,线上验证是有一定的时间和次数限制的,所以在比赛中构建一个合理的本地的验证集和验证的评价指标是很关键的步骤,能有效的节省很多时间。 2. 不同的指标对于同样的预测结果是具有误差敏感的差异性的,比如AUC,logloss, MAE,RSME,或者一些特定的评价函数。是会有很大可能会影响后续一些预测的侧重点。
4) 赛题背景中可能潜在隐藏的条件: 其实赛题中有些说明是很有利的,它们都可以在后续答辩中以及问题思考中所体现出来的,比如高效性要求,比如对于数据异常的识别处理,比如工序流程的差异性,比如模型运行的时间,比模型的鲁棒性,有些意识可以贯穿问题思考,特征,模型以及后续处理的,也有些会对于特征构建或者选择模型上有很大益处,反过来如果在模型预测效果不好,其实有时也要反过来思考,是不是赛题背景有没有哪方面理解不清晰或者什么其中的问题没考虑到。