1.6 泛化能力
1.6.1 泛化误差
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上的重要性质。现实中采用最多的就是通误差来评价学习方法的泛化能力。公式表示为:
R
(
f
^
)
=
E
p
[
L
(
Y
,
f
^
(
X
)
)
]
=
∫
X
x
Y
L
(
y
,
f
^
(
x
)
)
P
(
x
,
y
)
d
x
d
y
R(\hat{f})=E_p[L(Y,\hat{f}(X))]=\int_{XxY}L(y,\hat{f}(x))P(x,y)dxdy
R(f^)=Ep[L(Y,f^(X))]=∫XxYL(y,f^(x))P(x,y)dxdy
f
^
\hat{f}
f^表示学到的模型,泛化误差越小表示泛化能力越强。
1.6.2 泛化误差上界
泛化能力往往通过研究泛化误差的概率上界进行的,简称泛化误差上界。其具有一下性质:
- 他是样本容量的函数,当样本容量增加时,泛化上界趋于0;
- 它是假设空间的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
定理 1.1(泛化误差上界)对二分类问题,当假设空间是有限个函数的集合 F = { f 1 , f 2 , . . . , f n } F=\{f_1,f_2,...,f_n\} F={f1,f2,...,fn}时,对于任意一个函数 f ∈ F f\in F f∈F,至少以概率 1 − δ 1-\delta 1−δ, 0 < δ < 1 0<\delta<1 0<δ<1,以下不等式成立:
R ( f ) ≤ R ^ ( f ) + ε ( d , N , δ ) R(f)\leq\hat{R}(f)+\varepsilon(d,N,\delta) R(f)≤R^(f)+ε(d,N,δ),其中 ε ( d , N , δ ) = 1 2 N ( l o g d + l o g 1 δ ) \varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(log d+log \frac{1}{\delta})} ε(d,N,δ)=2N1(logd+logδ1),且不等式左边为泛化误差,有端即为泛化误差上界。
1.7 生成模型与判别模型
监督学习方法可以分为生成方法和判别方法,所学到的模型称为生成模型和判别模型。
生成方法由数据学习联合概率分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),然后求出概率分布
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y),作为预测模型,即生成模型:
P
(
X
∣
Y
)
=
P
(
X
,
Y
)
P
(
X
)
P(X|Y)=\frac{P(X,Y)}{P(X)}
P(X∣Y)=P(X)P(X,Y)。
之所以称为生成方法因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有朴素贝叶斯和隐马尔可夫模型。
判别方法由数据直接学习策略函数
f
(
X
)
f(X)
f(X)或者条件概率分布
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)作为预测的模型,即判别模型。典型的判别模型包括:k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
生成方法的特点:
- 生成方法可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y);
- 生成方法的学习收敛速度快;
- 当存在隐变量时仍可以用生成方法学习
判别方法的特点:
- 判别方法直接学习的是决策函数 f ( X ) f(X) f(X)或条件概率 P ( Y ∣ X ) P(Y|X) P(Y∣X),直接预测,往往学习的准确率更高;
- 由于直接学习决策函数 f ( X ) f(X) f(X)或条件概率 P ( Y ∣ X ) P(Y|X) P(Y∣X),可以对数据进行各种程度的抽象、定义特征并使用特征,因此可以简化学习问题。
1.8 监督学习应用
监督学习主要应用于三方面:分类问题、标注问题和回归问题。
1.8.1 分类问题
分类是监督学习的一个核心问题。监督学习中,当输出变量Y取有限个离散值时,预测问题就变成了分类问题。对于X可离散也可连续。而分类模型就是所谓的分类器,分类器对新的输入进行输出预测时,称为分类。有二分类和多分类。
评价分类器性能的指标一般是分类准确率,而对于二分类问题常用的评价指标时精确率与召回率。
精确率为:
P
=
T
P
T
P
+
F
P
P = \frac{TP}{TP+FP}
P=TP+FPTP
召回率为:
R
=
T
P
T
P
+
F
N
R=\frac{TP}{TP+FN}
R=TP+FNTP
还有
F
1
F_1
F1值,是精确率和召回率的调和均值,即:
F
1
=
2
T
P
2
T
P
+
F
P
+
F
N
F_1=\frac{2TP}{2TP+FP+FN}
F1=2TP+FP+FN2TP
其中:
- TP表示将正类预测为正类数
- FN表示将正类预测为负类数
- FP表示将负类预测为正类数
- TN表示将负类预测为正类数
1.8.2 标注问题
标注问题可以认为是分类问题的一个推广,也是结构预测问题的简单形式。标注问题的输入是一个观测序列,而输出是一个标记序列或状态序列。
标注问题分为学习和标注两个过程。学习系统基于训练数据集构建一个模型,而标注系统按照学习得到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列。
评价标注模型的指标与分类模型一样,常用的有准确率、精确率和召回率。
标注常用的统计学习方法有隐马尔可夫模型、条件随机场
1.8.3 回归问题
回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,故回归问题的学习等价于数学拟合。
回归问题分为学习和预测两个阶段:
- 学习过程即学习系统基于数据集构建一个模型,即函数 Y = f ( X ) Y=f(X) Y=f(X);
- 预测过程是对新的输入 x N + 1 x_{N+1} xN+1预测系统根据模型得出相应的 y N + 1 y_{N+1} yN+1。
回顾问题按照输入变量的个数分为一元回归和多元回归,而按照输入变量和输出变量之间关系的类型,分为线性回归和非线性回归
回归学习最常用的损失函数是平方损失函数。
持续更新中……