最大似然估计
似然函数是一种关于统计模型中的参数的函数,表示模型参数的似然性。
似然函数取得最大值表示相应的参数能使统计模型最为合理。
L ( b ∣ A ) = P ( A ∣ B = b ) L(b|A)=P(A|B=b) L(b∣A)=P(A∣B=b)
假设空间
由输入空间到输出空间的所有模型映射的集合
损失函数
模型输出的预测值 f ( X ) f(X) f(X)与真实值 Y Y Y的非负实值函数
风险函数(期望损失)
模型 f ( X ) f(X) f(X)关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)的平均意义下的损失
R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ x ∗ y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_p[L(Y,f(X))]=\int_{x*y} L(y,f(x))P(x,y)dxdy Rexp(f)=Ep[L(Y,f(X))]=∫x∗yL(y,f(x))P(x,y)dxdy
经验风险
模型 f ( X ) f(X) f(X)关于训练数据集的平均损失
R e m p ( f ) = 1 N ∑ i = 1 n L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i)) Remp(f)=N1i=1∑nL(yi,f(xi))
经验风险最小化:经验风险最小的模型就是最优的模型
m i n f ⊂ F 1 N ∑ i = 1 n L ( y i , f ( x i ) ) min_{f\subset F}\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i)) minf⊂FN1i=1∑nL(yi,f(xi))
模型选择方法
结构风险最小化:结构风险最小的模型就是最优的模型;防止过拟合的策略 = 正则化
R s r m ( f ) = 1 N ∑ i = 1 n L ( y i , f ( x i ) ) + λ J ( f ) m i n f ⊂ F 1 N ∑ i = 1 n L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i))+\lambda J(f) min_{f\subset F}\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i))+\lambda J(f) Rsrm(f)=N1i=1∑nL(yi,f(xi))+λJ(f)minf⊂FN1i=1∑nL(yi,f(xi))+λJ(f)
L2范数: L ( w ) = 1 N ∑ i = 1 n L ( y i , f ( x i ) ) + λ 2 ∣ ∣ w ∣ ∣ 2 L(w)=\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i))+\frac{\lambda}{2} ||w||^2 L(w)=N1∑i=1nL(yi,f(xi))+2λ∣∣w∣∣2
L1范数: L ( w ) = 1 N ∑ i = 1 n L ( y i , f ( x i ) ) + λ ∣ ∣ w ∣ ∣ L(w)=\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i))+\lambda||w|| L(w)=N1∑i=1nL(yi,f(xi))+λ∣∣w∣∣
过拟合
学习时选择的模型所包含的参数过多,导致模型对训练数据预测的很好,对测试数据预测的很差
泛化能力
泛化误差:理论上分析学习方法的泛化能力
f
(
X
)
^
\hat{f(X)}
f(X)^为学习到的模型,可理解为经验风险最小化模型
R
e
x
p
(
f
^
)
=
E
p
[
L
(
Y
,
f
(
X
)
^
)
]
=
∫
x
∗
y
L
(
y
,
f
(
x
)
^
)
P
(
x
,
y
)
d
x
d
y
R_{exp}(\hat{f})=E_p[L(Y,\hat{f(X)})]=\int_{x*y} L(y,\hat{f(x)})P(x,y)dxdy
Rexp(f^)=Ep[L(Y,f(X)^)]=∫x∗yL(y,f(x)^)P(x,y)dxdy
生成模型
由数据学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),然后求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)作为预测模型,即生成模型
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X,Y)}{P(X)} P(Y∣X)=P(X)P(X,Y)
特点:生成方法可还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快的收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,但判别方法不能用
- 朴素贝叶斯法
- 隐马尔可夫模型
判别模型
由数据直接学习决策函数
f
(
X
)
f(X)
f(X)或条件概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)作为预测模型,即判别模型
特点:直接面对预测,往往学习的准确率更高;由于直接学习
f
(
X
)
f(X)
f(X)或
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X),可以对数据进行各种程度上的抽象,定义特征并使用特征,因此可以简化学习问题