《机器学习》阅读笔记(二)(待补充习题)
2 模型评估与选择
2.1 经验误差与过拟合
术语 | en | 描述 |
---|---|---|
错误率 | error rate | 分类错误的样本数占样本总数的比例( m m m个样本中有 a a a个样本分类错误,则错误率 E = a / m E=a/m E=a/m) |
精度 | accuracy | 精度=1-错误率( 1 − a / m 1-a/m 1−a/m) |
误差 | error | 学习器的实际预测输出与样本的真实输出之间的差异 |
训练误差/经验误差 | training error/empirical error | 学习器在训练集上的误差 |
泛化误差 | generalization error | 在新样本上的误差 |
过拟合 | overfitting | 学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降 |
欠拟合 | underfitting | 与过拟合相对,对训练样本的一般性质尚未学好 |
2.2 评估方法
D
=
{
x
1
,
x
2
,
…
,
x
m
}
D=\{x_1,x_2,\dots,x_m\}
D={x1,x2,…,xm}
通过对
D
D
D进行适当的处理,从中产生出训练集
S
S
S和测试集
T
T
T。
常见处理方法 | en | 描述 | 表示 | 注 |
---|---|---|---|---|
留出法 | hold-out | 直接将数据集 D D D划分为两个互斥的集合,其中一个集合作为训练集 S S S,另一个作为测试集 T T T | D = S ∪ T , S ∩ T = ∅ D=S\cup T,S\cap T=\varnothing D=S∪T,S∩T=∅ | 分层采样(保留类别比例的采样方式)/若干次随机划分、重复进行实验评估后取平均值 |
交叉验证法( k k k折验证法) | cross validation | 先将数据集 D D D划分为 k k k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性(分层抽样),每次使用 k − 1 k-1 k−1个子集的并集作为训练集,剩下的那个子集作为测试集;最终返回 k k k个测试结果的均值 | D = D 1 ∪ D 2 ∪ ⋯ ∪ D k , D i ∩ D j = ∅ ( i ≠ j ) D=D_1\cup D_2\cup\cdots\cup D_k,D_i\cap D_j=\varnothing(i\neq j) D=D1∪D2∪⋯∪Dk,Di∩Dj=∅(i=j) | 假定数据集 D D D中包含 m m m个样本,若令 k = m k=m k=m,则得到了交叉验证法的一个特例:留一法 |
自助法 | bootstrapping | 给定包含 m m m个样本的数据集 D D D,对它进行采样产生数据集 D ′ D' D′:每次随机从 D D D阿訇挑选一个样本,将其拷贝放入 D ′ D' D′,然后再将该样本放回到初始数据集 D D D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行 m m m次后,就得到了包含 m m m个样本的数据集 D ′ D' D′。将 D ′ D' D′用作训练集, D \ D ′ D\backslash D' D\D′用作测试集(包外估计(out-of-bag-estimate)) | 样本在 m m m次采集中始终不被采到的概率是 ( 1 − 1 m ) m (1-\frac{1}{m})^m (1−m1)m,去极限得到为 1 e ≈ 0.368 \frac{1}{e}\approx0.368 e1≈0.368 | - |
2.2.4 调参与最终模型
验证集(validation set):模型评估与选择中用于评估测试的数据集。
2.3 性能度量(performance measure)
预测任务中,给定
D
=
{
(
x
1
,
y
i
)
,
(
x
2
,
y
i
)
,
…
,
(
x
m
,
y
m
)
}
D=\{(x_1,y_i),(x_2,y_i),\dots,(x_m,y_m)\}
D={(x1,yi),(x2,yi),…,(xm,ym)}其中,
y
i
y_i
yi:示例
x
i
x_i
xi的真实标记
评估学习器
f
f
f的的性能:把学习器预测结果
f
(
x
)
f(x)
f(x)与真实标记
y
y
y进行比较。
任务类型 | 性能度量 | en | 数学公式 | 注 |
---|---|---|---|---|
回归 | 均方误差 | mean squared error | E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m}\sum\limits^m_{i=1}(f(x_i)-y_i)^2 E(f;D)=m1i=1∑m(f(xi)−yi)2 | - |
(一般) | 均方误差 | - | E ( f ; D ) = ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d x E(f;\mathcal{D})=\displaystyle\int_{x\sim\mathcal{D}}(f(x)-y)^2p(x)dx E(f;D)=∫x∼D(f(x)−y)2p(x)dx | D \mathcal{D} D:数据分布; p ( ⋅ ) p(\cdot) p(⋅):概率密度函数 |
2.3.1 错误率与精度
术语 | 定义(分类任务) | 定义(一般) |
---|---|---|
错误率 | E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum\limits^m_{i=1}\mathbb{I}(f(x_i)\neq y_i) E(f;D)=m1i=1∑mI(f(xi)=yi) | E ( f ; D ) = ∫ x ∼ D I ( f ( x ) ≠ y ) p ( x ) d x E(f;D)=\displaystyle\int_{x\sim\mathcal{D}}\mathbb{I}(f(x)\neq y)p(x)dx E(f;D)=∫x∼DI(f(x)=y)p(x)dx |
精度 | a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D ) acc(f;D)=\frac{1}{m}\sum\limits^{m}_{i=1}\mathbb{I}(f(x_i)=y_i)=1-E(f;D) acc(f;D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D) | E ( f ; D ) = ∫ x ∼ D I ( f ( x ) = y ) p ( x ) d x = 1 − E ( f ; D ) E(f;D)=\displaystyle\int_{x\sim\mathcal{D}}\mathbb{I}(f(x)=y)p(x)dx\\=1-E(f;\mathcal{D}) E(f;D)=∫x∼DI(f(x)=y)p(x)dx=1−E(f;D) |
2.3.2 查准率、查全率与 F 1 F1 F1
二分类问题:
划分 | en | 简写 |
---|---|---|
真正例 | true positive | T P TP TP |
假正例 | false positive | F P FP FP |
真反例 | true negative | T N TN TN |
假反例 | false negative | F N FN FN |
术语 | en | 描述 |
---|---|---|
查准率 P P P | precision | P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP |
查全率 R R R | recall | R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP |
一般:
查
全
率
↑
(
所
有
都
被
选
为
正
例
,
降
低
标
准
)
→
查
准
率
↓
查全率\uparrow(所有都被选为正例,降低标准)\rightarrow查准率\downarrow
查全率↑(所有都被选为正例,降低标准)→查准率↓
查
准
率
↑
(
只
挑
选
最
有
把
握
的
正
例
,
提
高
标
准
)
→
查
全
率
↓
查准率\uparrow(只挑选最有把握的正例,提高标准)\rightarrow查全率\downarrow
查准率↑(只挑选最有把握的正例,提高标准)→查全率↓
P
−
R
曲
线
\mathrm{P-R}曲线
P−R曲线:根据学习器的预测结果对样例进行排序,排在前面的是学习器认为“最可能”是正例的样本,排在最后的则是学习器认为“最不可能”是正例的样本。按此顺序逐个把样本作为正例进行预测(逐个把样本分类置信度作为阈值,划分正反例,例如,置信度排序:
0.9
,
0.8
,
0.5
,
0.1
0.9,0.8,0.5,0.1
0.9,0.8,0.5,0.1,若把
0.5
0.5
0.5作为阈值,则高于
0.5
0.5
0.5的作为正例,低于
0.5
0.5
0.5作为反例),则每次可以计算出当前的查全率、查准率。以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线。
P − R \mathrm{P-R} P−R图直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时,若一个学习器的 P − R \mathrm{P-R} P−R曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者;如果两个学习器的 P − R \mathrm{P-R} P−R曲线发生了交叉,则难以一般性地断言两者孰优孰劣,只能在具体的查准率或查全率条件下进行比较
二分类问题个数 | 性能度量 | 描述 |
---|---|---|
1 | 平衡点(Break-Even Point,BEP) | “查准率=查全率”时的取值。基于BEP比较时,认为BEP高的学习器优于BEP低的。 |
1 | F 1 F1 F1度量(更常用) | 基于查准率与查全率的调和平均 F 1 = 2 × P × R P + R = 2 × T P 样 例 总 数 + T P − T N F1=\frac{2\times P \times R}{P+R}=\frac{2\times TP}{样例总数+TP-TN} F1=P+R2×P×R=样例总数+TP−TN2×TP |
1 | F β F_{\beta} Fβ( F 1 F1 F1度量的一般形式) | 基于查准率与查全率的加权调和平均 1 F β = 1 1 + β 2 ⋅ ( 1 P + β 2 R ) \frac{1}{F_\beta}=\frac{1}{1+\beta^2}\cdot\Bigg(\frac{1}{P}+\frac{\beta^2}{R}\Bigg) Fβ1=1+β21⋅(P1+Rβ2) F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_{\beta}=\frac{(1+\beta^2)\times P\times R}{(\beta^2\times P)+R} Fβ=(β2×P)+R(1+β2)×P×R其中, β > 0 \beta>0 β>0:度量了查全率对查准率的相对重要性 { β = 1 退 化 为 标 准 的 F 1 β > 1 查 全 率 有 更 大 影 响 β < 1 查 准 率 有 更 发 影 响 \left\{\begin{aligned}\beta=1 && 退化为标准的F1\\\beta>1 && 查全率有更大影响\\\beta<1 && 查准率有更发影响\end{aligned}\right. ⎩⎪⎨⎪⎧β=1β>1β<1退化为标准的F1查全率有更大影响查准率有更发影响 |
n | 宏查准率、宏查全率、宏 F 1 F1 F1 | 先在各混淆矩阵上分别计算出查准率和查全率,记为 ( P 1 , R 1 ) , ( P 2 , R 2 ) , … , ( P n , R n ) (P_1,R_1),(P_2,R_2),\dots,(P_n,R_n) (P1,R1),(P2,R2),…,(Pn,Rn),再计算平均值,得到宏查准率、宏查全率以及相应的宏 F 1 F1 F1 |
n | 微查准率、微查全率、微 F 1 F1 F1 | 先将各混淆矩阵的对应元素进行平均,得到 T P TP TP、 F P FP FP、 T N TN TN、 F N FN FN的平均值,分别记为 T P ‾ \overline{TP} TP、 F P ‾ \overline{FP} FP、 T N ‾ \overline{TN} TN、 F N ‾ \overline{FN} FN,再基于这些平均值计算微查准率、微查全率和微 F 1 F1 F1 |
性能度量 | en | 公式 | 绘图过程 | 性能判定标准 |
---|---|---|---|---|
受试者工作特征 | Receiver Operating Characteristic,ROC |
T
P
R
=
T
P
T
P
+
F
N
TPR=\frac{TP}{TP+FN}
TPR=TP+FNTP
F
P
R
=
F
P
T
N
+
F
P
FPR=\frac{FP}{TN+FP}
FPR=TN+FPFP“真正例率”(True Positive Rate,TPR)(纵轴) “假正例率”(False Positive Rate,FPR)(横轴) | 1. 给定
m
+
m^+
m+个正例和
m
−
m^-
m−个反例,(排序) 2. 把分类阈值设为最大,即把所有样例均预测为反例,此时 T P R = R P R = 0 TPR=RPR=0 TPR=RPR=0,在坐标 ( 0 , 0 ) (0,0) (0,0)处标记一个点 3. (预测) 4. 设前一个标记点坐标为 ( x , y ) (x,y) (x,y),那么 4.1当前若为真正例,则对应标记点的坐标为 ( x , y + 1 m + ) (x,y+\frac{1}{m^+}) (x,y+m+1) 4.2当前若为假正例,则对应标记点的坐标为 ( x + 1 m − , y ) (x+\frac{1}{m^-},y) (x+m−1,y) 5. 用线段连接相邻点即得 | 若一个学习器的
R
O
C
\mathrm{ROC}
ROC曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者; 若两个学习器的 R O C \mathrm{ROC} ROC曲线发生交叉,则难以一般性的断言两者孰优孰劣。 此时如果一定要进行比较,则较为合理的判据是比较 R O C \mathrm{ROC} ROC曲线下的面积,即 A U C \mathrm{AUC} AUC(Area Under ROC Curve)。 |
A U C \mathrm{AUC} AUC | Area Under ROC Curve | 估算为 A U C = 1 2 ∑ i = 1 m − 1 ( x i + 1 − x i ) ⋅ ( y i + y i + 1 ) AUC=\frac{1}{2}\sum\limits^{m-1}_{i=1}\\(x_{i+1}-x_i)\cdot(y_i+y_{i+1}) AUC=21i=1∑m−1(xi+1−xi)⋅(yi+yi+1) | - | - |
排序“损失”(loss) | - | 给定
m
+
m^+
m+个正例和
m
−
m^-
m−个反例,令
D
+
D^+
D+和
D
−
D^-
D−分别表示正、反例集合,则
ℓ
r
a
n
k
=
1
m
+
m
−
∑
x
+
∈
D
+
∑
x
−
∈
D
−
(
I
(
f
(
x
+
)
<
f
(
x
−
)
)
+
1
2
I
(
f
(
x
+
)
=
f
(
x
−
)
)
)
\ell_{rank}=\\\frac{1}{m^+m^-}\sum\limits_{x^+\in D^+}\sum\limits_{x^-\in D^-}\\\Big(\mathbb{I}\big(f(x^+)<f(x^-)\big)\\+\frac{1}{2}\mathbb{I}\big(f(x^+)=f(x^-)\big)\Big)
ℓrank=m+m−1x+∈D+∑x−∈D−∑(I(f(x+)<f(x−))+21I(f(x+)=f(x−)))1. 若正例的预测值小于反例,则记一个“罚分” 2. 若相等,则记0.5个“罚分” A U C = 1 − ℓ r a n k AUC=1-\ell_{rank} AUC=1−ℓrank | - | - |
2.3.4 代价敏感错误率与代价曲线
- 非均等代价(unequal cost):为权衡不同类型错误所造成的不同损失,可为错误赋予“非均等代价”。
- 代价矩阵(cost matrix):
c
o
s
t
i
i
cost_{ii}
costii:将第
i
i
i类样本预测为第
j
j
j类样本的代价
- c o s t i i = 0 cost_{ii}=0 costii=0
- c o s t 01 > c o s t 10 cost_{01}>cost_{10} cost01>cost10:将第0类判别为第1类所造成的损失更大
- c o s t 01 cost_{01} cost01与 c o s t 10 cost_{10} cost10值的差别越大:损失程度相差越大
- “代价敏感”(cost-sensitive)错误率: E ( f ; D ; c o s t ) = 1 m ( ∑ x i ∈ D + I ( f ( x i ) ≠ y i ) × c o s t 01 + ∑ x i ∈ D − I ( f ( x i ) ≠ y i ) × c o s t 10 ) E(f;D;cost)=\frac{1}{m}\Bigg(\sum\limits_{x_i\in D^+}\mathbb{I}(f(x_i)\neq y_i)\times cost_{01}+\sum\limits_{x_i\in D^-}\mathbb{I}(f(x_i)\neq y_i)\times cost_{10}\Bigg) E(f;D;cost)=m1(xi∈D+∑I(f(xi)=yi)×cost01+xi∈D−∑I(f(xi)=yi)×cost10)
性能度量 | en | 公式 | 绘图过程 | 性能判定标准 |
---|---|---|---|---|
代价曲线 | cost curve | 直接反映出学习器的期望总体代价 横轴:取值为 [ 0 , 1 ] [0,1] [0,1]的正例概率代价 P ( + ) c o s t = p × c o s t 01 p × c o s t 01 + ( 1 − p ) × c o s t 10 P(+)cost=\frac{p\times cost_{01}}{p\times cost_{01}+(1-p)\times cost_{10}} P(+)cost=p×cost01+(1−p)×cost10p×cost01其中, p p p:样例为正例的概率 纵轴:取值为 [ 0 , 1 ] [0,1] [0,1]的归一化代价 c o s t n o r m = F N R × p × c o s t 01 + F P R × ( 1 − p ) × c o s t 10 p × c o s t 01 + ( 1 − p ) × c o s t 10 cost_{norm}=\\\frac{FNR\times p\times cost_{01}+FPR\times(1-p)\times cost_{10}}{p\times cost_{01}+(1-p)\times cost_{10}} costnorm=p×cost01+(1−p)×cost10FNR×p×cost01+FPR×(1−p)×cost10其中: 1. F P R FPR FPR:假正例率 2. F N R = 1 − T P R FNR=1-TPR FNR=1−TPR:假反例率 |
ROC曲线上每一点对应了代价平面上的一条线段 1. ROC曲线上点的坐标为(FPR,TPR),则可相应计算出FNR 2. 在代价平面上绘制从(0,FPR)到(1,FNR)的一条线段,线段下的面积即表示了该条件下的期望总体代价 | 将ROC曲线上的每个点转换为代价平面上的一条线段,然后取所有线段的下界,围成的面积即为在所有条件下学习器的期望总体代价 |
2.4 比较检验
ϵ \epsilon ϵ:错误率
2.4.1 假设检验
根据测试错误率估推出泛化错误率的分布
- 已知
- 泛化错误率 ϵ \epsilon ϵ:在一个样本上犯错的概率是 ϵ \epsilon ϵ
- 测试错误率 ϵ ^ \hat{\epsilon} ϵ^:在 m m m个测试样本中恰有 ϵ ^ × m \hat{\epsilon}\times m ϵ^×m个被误分类
- 假设检验
- 泛化错误率为
ϵ
\epsilon
ϵ的学习器:
- 将 m m m中的 m ′ m' m′个样本误分类、其余样本全部分类正确的概率是 ( m m ′ ) ϵ m ′ ( 1 − ϵ ) m − m ′ {m\choose{m'}}\epsilon^{m'}(1-\epsilon)^{m-m'} (m′m)ϵm′(1−ϵ)m−m′
- 恰将
ϵ
^
×
m
\hat{\epsilon}\times m
ϵ^×m个样本误分类的概率为
P ( ϵ ^ ; ϵ ) = ( m ϵ ^ × m ) ϵ ϵ ^ × m ( 1 − ϵ ) m − ϵ ^ × m P(\hat{\epsilon};\epsilon)={m \choose {\hat{\epsilon}\times m}}\epsilon^{\hat{\epsilon}\times m}(1-\epsilon)^{m-\hat{\epsilon}\times m} P(ϵ^;ϵ)=(ϵ^×mm)ϵϵ^×m(1−ϵ)m−ϵ^×m
给定测试错误率,则解 ∂ P ( ϵ ^ ; ϵ ) ∂ ϵ = 0 \frac{\partial P(\hat{\epsilon};\epsilon)}{\partial \epsilon}=0 ∂ϵ∂P(ϵ^;ϵ)=0可知, P ( ϵ ^ ; ϵ ) P(\hat{\epsilon};\epsilon) P(ϵ^;ϵ)在 ϵ = ϵ ^ \epsilon=\hat{\epsilon} ϵ=ϵ^时最大 ∣ ϵ − ϵ ^ ∣ ↑ → P ( ϵ ^ ; ϵ ) ↓ |\epsilon-\hat{\epsilon}|\uparrow\rightarrow P(\hat{\epsilon};\epsilon)\downarrow ∣ϵ−ϵ^∣↑→P(ϵ^;ϵ)↓符合二项分布(若 ϵ = 0.3 \epsilon=0.3 ϵ=0.3,则10个样本中测的3个被误分类的概率最大)
- 使用“二项检验”(binomial test)来对“ ϵ ⩽ 0.3 \epsilon\leqslant0.3 ϵ⩽0.3”这样的假设进行检验
- 一般地,考虑假设“
ϵ
⩽
ϵ
0
\epsilon\leqslant\epsilon_0
ϵ⩽ϵ0”,则在
1
−
α
1-\alpha
1−α的概率内所能观测到的最大错误率计算
ϵ
‾
=
max
ϵ
s.t.
∑
i
=
ϵ
0
×
m
+
1
m
(
m
i
)
ϵ
i
(
1
−
ϵ
)
m
−
i
<
α
\overline{\epsilon}=\max\epsilon \quad\text{s.t.}\quad\sum\limits^{m}_{i=\epsilon_0\times m+1}{m\choose i}\epsilon^i(1-\epsilon)^{m-i}<\alpha
ϵ=maxϵs.t.i=ϵ0×m+1∑m(im)ϵi(1−ϵ)m−i<α结论:
- 若 ϵ ^ < ϵ ‾ \hat{\epsilon}<\overline{\epsilon} ϵ^<ϵ,假设“ ϵ ⩽ ϵ 0 \epsilon\leqslant\epsilon_0 ϵ⩽ϵ0”不能被拒绝,即以 1 − α 1-\alpha 1−α的置信度认为,学习器的泛化错误率不大于 ϵ 0 \epsilon_0 ϵ0
- 否则该假设可被拒绝
- 泛化错误率为
ϵ
\epsilon
ϵ的学习器:
-
t
t
t检验(t-test)(用于多个测试错误率)
- 假定
- ϵ ^ 1 , ϵ ^ 2 , … , ϵ ^ k \hat{\epsilon}_1,\hat{\epsilon}_2,\dots,\hat{\epsilon}_k ϵ^1,ϵ^2,…,ϵ^k: k k k个错误率
- 则
- μ \mu μ:平均错误率
- σ 2 \sigma^2 σ2:方差
- 考虑 k k k个测试错误率可看作泛化错误率 ϵ 0 \epsilon_0 ϵ0的独立采样,则 τ t = k ( μ − ϵ 0 ) σ ∼ t ( k − 1 ) \tau_t=\frac{\sqrt{k}(\mu-\epsilon_0)}{\sigma}\sim t(k-1) τt=σk(μ−ϵ0)∼t(k−1)
- 假定
2.4.2 交叉验证 t t t检验
- 成对
t
t
t检验(paired t-tests):
- 两个学习器A和B
- 均适用 k k k折交叉验证法得到测试错误率
- ϵ i A \epsilon_i^A ϵiA和 ϵ i B \epsilon_i^B ϵiB是在相同的第 i i i折训练/测试集上得到的结果
- 若两个学习器的性能相同,则它们使用相同的训练集/测试集得到的测试错误率应相等,即 ϵ i A = ϵ i B \epsilon_i^A=\epsilon_i^B ϵiA=ϵiB。
- 步骤:
- Δ i = ϵ i A − ϵ i B \Delta_i=\epsilon^A_i-\epsilon^B_i Δi=ϵiA−ϵiB(若两个学习器性能相同,则差值均值为0)
- 假设:学习器A与B性能相同
- 计算差值均值 μ \mu μ和方差 σ 2 \sigma^2 σ2,在显著性 α \alpha α下,若变量 τ t = ∣ k μ σ ∣ < t α / 2 , k − 1 \tau_t=\left|\frac{\sqrt{k}\mu}{\sigma} \right|<t_{\alpha/2,k-1} τt=∣∣∣∣∣σkμ∣∣∣∣∣<tα/2,k−1则假设不能被拒绝。 t α / 2 , k − 1 t_{\alpha/2,k-1} tα/2,k−1是自由度为 k − 1 k-1 k−1的 t t t分布上尾部累积分布为 α / 2 \alpha/2 α/2的临界值。
- 通常情况下样本有限,在使用交叉验证等实验估计方法时,不用轮次的训练集会有一定程度的重叠,这就使得测试错误率实际上并不独立,会导致过高估计假设成立的概率 → \rightarrow → 5 × 2 交 叉 验 证 5\times 2交叉验证 5×2交叉验证(5次2折交叉验证)
2.5 偏差与方差
- 偏差-方差分解(bias-variance decomposition):解释学习算法泛化性能。
- 记:
- x x x:测试样本
- y D y_D yD: x x x在数据集中的标记
- y y y: x x x的真实标记
- f ( x ; D ) f(x;D) f(x;D):训练集 D D D上学得模型 f f f在 x x x上的预测输出
- 则
- 数学期望(回归): f ‾ ( x ) = E D [ f ( x ; D ) ] \overline{f}(x)=\mathbb{E}_D[f(x;D)] f(x)=ED[f(x;D)]
- 方差(样本数相同的不同训练集): v a r ( x ) = E D [ ( f ( x ; D ) − f ‾ ( x ) ) 2 ] var(x)=\mathbb{E}_D[(f(x;D)-\overline{f}(x))^2] var(x)=ED[(f(x;D)−f(x))2](数据扰动所造成的影响)
- 噪声: ε 2 = E D [ ( y D − y ) 2 ] \varepsilon^2=\mathbb{E}_D[(y_D-y)^2] ε2=ED[(yD−y)2](为便于讨论,假定噪声期望为0)(任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度)
- 偏差(期望输出与真实标记的差别): b i a s 2 ( x ) = ( f ‾ ( x ) − y ) 2 bias^2(x)=(\overline{f}(x)-y)^2 bias2(x)=(f(x)−y)2(学习算法本身的拟合能力)
- 分解期望泛化误差 E ( f ; D ) = b i a s 2 ( x ) + v a r ( x ) + ε 2 E(f;D)=bias^2(x)+var(x)+\varepsilon^2 E(f;D)=bias2(x)+var(x)+ε2泛化误差 → \rightarrow →偏差+方差+噪声 ⇒ \\\Rightarrow ⇒泛化能力 → \rightarrow →学习算法能力+数据充分性+学习任务本身难度 ⇒ \\\Rightarrow ⇒好的泛化性能 → \rightarrow →(偏差小)能够充分拟合数据+(方差小)使得数据扰动产生的影响小
- 记:
- 偏差-方差窘境(bias-variance dilemma):
训
练
不
足
→
拟
合
能
力
不
够
强
→
偏
差
训
练
加
强
→
拟
合
能
力
足
够
→
数
据
扰
动
影
响
大
→
方
差
}
主
导
泛
化
错
误
率
\left. \begin{aligned} 训练不足\rightarrow拟合能力不够强\rightarrow偏差\\ 训练加强\rightarrow拟合能力足够\rightarrow数据扰动影响大\rightarrow方差 \end{aligned} \right\}主导泛化错误率
训练不足→拟合能力不够强→偏差训练加强→拟合能力足够→数据扰动影响大→方差}主导泛化错误率
若训练数据自身的、非全局的特性被学习期学到了,则将发生过拟合。
习题(待补充)
- ( 500 350 ) × ( 500 350 ) {500\choose 350}\times{500\choose 350} (350500)×(350500)种
P.S.:分层
-
E
(
f
;
D
)
=
1
m
∑
i
=
1
m
I
(
f
(
x
i
)
≠
y
i
)
E(f;D)=\frac{1}{m}\sum\limits^{m}_{i=1}\mathbb{I}(f(x_i)\neq y_i)
E(f;D)=m1i=1∑mI(f(xi)=yi)
10折交叉验证法:E=0.5
留一法:E=1
- 10折交叉验证法 留一法 训练集 90:45(正)+45(反) 99:49(正)+50(反)/50(正)+49(反) 测试集 10:5(正)+5(反) 1:1(正)/1(反) f ( x i ) ≠ y i f(x_i)\neq y_i f(xi)=yi概率 1 2 \frac{1}{2} 21 1/1 E E E 0.5 0.5 0.5 1 + 1 2 = 1 \frac{1+1}{2}=1 21+1=1
- A的BEP值也比B高
若 P = R 即 T P T P + F P = T P T P + F N 若P=R \qquad即\frac{TP}{TP+FP}=\frac{TP}{TP+FN} 若P=R即TP+FPTP=TP+FNTP
已知:(假设以下推理中分母均不为0) F 1 A > F 1 B F1_A>F1_B F1A>F1B 2 × T P A 样 例 总 数 + T P A − T N A > 2 × T P B 样 例 总 数 + T P B − T N B \frac{2\times TP_A}{样例总数+TP_A-TN_A}>\frac{2\times TP_B}{样例总数+TP_B-TN_B} 样例总数+TPA−TNA2×TPA>样例总数+TPB−TNB2×TPB 样 本 总 数 − T N A T P A < 样 本 总 数 − T N B T P B \frac{样本总数-TN_A}{TP_A}<\frac{样本总数-TN_B}{TP_B} TPA样本总数−TNA<TPB样本总数−TNB T P A + F P A + F N A T P A < T P B + F P B + F N B T P B \frac{TP_A+FP_A+FN_A}{TP_A}<\frac{TP_B+FP_B+FN_B}{TP_B} TPATPA+FPA+FNA<TPBTPB+FPB+FNB T P A + F P A T P A + T P A + F N A T P A < T P B + F P B T P B + T P B + F N B T P B \frac{TP_A+FP_A}{TP_A}+\frac{TP_A+FN_A}{TP_A}<\frac{TP_B+FP_B}{TP_B}+\frac{TP_B+FN_B}{TP_B} TPATPA+FPA+TPATPA+FNA<TPBTPB+FPB+TPBTPB+FNB
根据均值不等式: 2 1 a + 1 b = 2 a b a + b ⩽ a b ⩽ a + b 2 \frac{2}{\frac{1}{a}+\frac{1}{b}}=\frac{2ab}{a+b}\leqslant\sqrt{ab}\leqslant\frac{a+b} {2} a1+b12=a+b2ab⩽ab⩽2a+b(当且仅当a=b时取等号)
∵ P = R \because P=R ∵P=R ∴ T P + F P T P = T P + F N T P \therefore\frac{TP+FP}{TP}=\frac{TP+FN}{TP} ∴TPTP+FP=TPTP+FN ∴ T P + F P T P + T P + F N T P = 4 P + R \therefore\frac{TP+FP}{TP}+\frac{TP+FN}{TP}=\frac{4}{P+R} ∴TPTP+FP+TPTP+FN=P+R4 ∴ P A + R A > P B + R B \therefore P_A+R_A>P_B+R_B ∴PA+RA>PB+RB ∴ A 的 B E P 值 也 比 B 高 \therefore A的BEP值也比B高 ∴A的BEP值也比B高
可以考虑将AUC转换成一个 m + × m − m^+\times m^- m+×m−的表格,计算每个点的过程即从原点向上或向右走的过程(待证)