测试集的保留方法
- 留出法
1.三七分、二八分
2.train set、test set 同分布
3.多次随机划分、训练多个模型、取平均值 - 交叉验证法
1.k折交叉验证法(数据量大时对算力要求高) - 自助法
性能度量
MSE(Mean Square Error):
E
(
f
;
D
)
=
1
m
Σ
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
E(f;D) = \dfrac{1}{m}\Sigma_{i=1}^m(f(x_i)-y_i)^2
E(f;D)=m1Σi=1m(f(xi)−yi)2
D
D
D:数据集,
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
i
,
y
i
)
}
D =\{{(x_1,y_1),(x_2,y_2),...,(x_i,y_i)}\}
D={(x1,y1),(x2,y2),...,(xi,yi)}
f
f
f:映射关系
m
m
m:样本个数
y
i
y_i
yi:真实标签
f
(
x
i
)
f(x_i)
f(xi):预测结果
MSE代表真实值与预测值间的偏差大小
错误率与精度
错误率:
E
(
f
;
D
)
=
1
m
Σ
i
=
1
m
I
(
f
(
x
i
)
≠
y
i
)
E(f;D) = \dfrac{1}{m}\Sigma_{i=1}^mI(f(x_i)≠y_i)
E(f;D)=m1Σi=1mI(f(xi)=yi)
精度:
a
c
c
=
1
−
E
(
f
;
D
)
acc = 1-E(f;D)
acc=1−E(f;D)
I ( f ( x i ) ≠ y i ) I(f(x_i)≠y_i) I(f(xi)=yi)表示条件为真取值为1,否则为0
准确率和召回率
准确率(查准率):
P
r
e
c
i
s
i
o
n
=
T
P
T
P
+
F
P
Precision = \dfrac{TP}{TP+FP}
Precision=TP+FPTP
召回率(查全率):
R
e
c
a
l
l
=
T
P
T
P
+
F
N
Recall = \dfrac{TP}{TP+FN}
Recall=TP+FNTP
T/F:预测正确或错误
P/N:被预测成正样本或负样本
综合评估指标
1.平衡点(Break-Event Point,BEP)P-R曲线上P = R的点。
2.调和平均数
1
F
1
=
1
2
(
1
P
+
1
R
)
\dfrac{1}{F1} = \dfrac{1}{2}(\dfrac{1}{P}+\dfrac{1}{R})
F11=21(P1+R1)
3.加权调和平均
1
F
β
=
1
1
+
β
2
(
1
P
+
β
2
R
)
\dfrac{1}{F_\beta} = \dfrac{1}{1+\beta^2}(\dfrac{1}{P}+\dfrac{\beta^2}{R})
Fβ1=1+β21(P1+Rβ2)
加权调和平均通过
β
\beta
β值大于1或小于1来更加关注R或P
n个二分类的多分类问题评估标准
宏查准率(macro-P)、宏查全率(macro-R)、宏F1(macro-F1)微查准率(micro-P)、微查全率(micro-R)、微F1(micro-F1)
评估模型间的好坏
1.比较P-R曲线面积
2.比较
F
1
F1
F1
3.比较
F
β
F_\beta
Fβ
ROC与AUC指标
AUC(Area Under ROC)是ROC(Reciver Operating Characteristic)曲线的面积,用来衡量两个模型的好坏
l
r
a
n
k
l_{rank}
lrank是除去AUC部分的面积,
l
r
a
n
k
l_{rank}
lrank越小模型越好。