1.任务T
通常机器学习任务定义为机器学习系统应该如何处理样本。样本是指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征的集合。我们通常会将样本表示为一个向量 x ∈ R n x\isin\Reals^n x∈Rn,其中向量的每一个元素 x i x^i xi是一个特征。例如,一张图片的特征通常是指这张图片的像素值。
2.交叉验证
2.1 LOOCV
首先,我们先介绍LOOCV方法,即(Leave-one-out cross-validation)。像Test set approach一样,LOOCV方法也包含将数据集分为训练集和测试集这一步骤。但是不同的是,我们现在只用一个数据作为测试集,其他的数据都作为训练集,并将此步骤重复N次(N为数据集的数据数量)。
如上图所示,假设我们现在有n个数据组成的数据集,那么LOOCV的方法就是每次取出一个数据作为测试集的唯一元素,而其他n-1个数据都作为训练集用于训练模型和调参。结果就是我们最终训练了n个模型,每次都能得到一个MSE。而计算最终test MSE则就是将这n个MSE取平均。
C
V
(
n
)
=
1
/
n
∑
i
=
1
n
M
S
E
i
CV(n)=1/n\displaystyle\sum_{i=1}^nMSE_i
CV(n)=1/ni=1∑nMSEi
2.2 K-fold Cross Validation
最常见的折中办法叫做K折交叉验证,和LOOCV的不同在于,我们每次的测试集将不再只包含一个数据,而是多个,具体数目将根据K的选取决定。比如,如果K=5,那么我们利用五折交叉验证的步骤就是:
1.将所有数据集分成5份
2.不重复地每次取其中一份做测试集,用其他四份做训练集训练模型,之后计算该模型在测试集上的 M S E i MSE_i MSEi
3.将5次的
M
S
E
i
MSE_i
MSEi取平均得到最后的MSE
C
V
(
k
)
=
1
/
k
∑
i
=
1
n
M
S
E
i
CV_{(k)}=1/k\displaystyle\sum_{i=1}^nMSE_i
CV(k)=1/ki=1∑nMSEi
不难理解,其实LOOCV是一种特殊的K-fold Cross Validation(K=N)
2.3 极大似然估计
首先明确极大似然估计的目的:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
原理: 极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
考虑一组含有m个样本的数据集
Z
=
{
x
(
1
)
,
.
.
.
,
x
(
m
)
}
\Z=\{x^{(1)},...,x^{(m)}\}
Z={x(1),...,x(m)},样本都是独立同分布的。
似然函数: 联合概率密度函数
p
(
Z
∣
θ
)
p(\Z|\theta)
p(Z∣θ)称为相对于
{
x
(
1
)
,
.
.
.
,
x
(
m
)
}
\{x^{(1)},...,x^{(m)}\}
{x(1),...,x(m)}的θ的似然函数。
l
(
θ
)
=
p
(
Z
∣
θ
)
=
p
(
x
(
1
)
,
.
.
.
,
x
(
m
)
∣
θ
)
=
∏
i
=
1
m
p
(
x
i
∣
θ
)
l(\theta)=p(\Z|\theta)=p(x^{(1)},...,x^{(m)}|\theta)=\displaystyle\prod_{i=1}^mp(x_i|\theta)
l(θ)=p(Z∣θ)=p(x(1),...,x(m)∣θ)=i=1∏mp(xi∣θ).
如果
θ
m
l
\theta_{ml}
θml是参数空间中能是似然函数
l
(
θ
)
l(\theta)
l(θ)最大的θ值,则
θ
m
l
\theta_{ml}
θml应该是‘最可能’的参数值,那么
θ
m
l
\theta_{ml}
θml就是θ的极大似然估计量。它是样本集的函数,记作:
θ
m
l
=
z
(
x
1
,
x
2
,
.
.
.
,
x
m
)
=
z
(
Z
)
\theta_{ml}=z(x_1,x_2,...,x_m)=z(\Z)
θml=z(x1,x2,...,xm)=z(Z)
θ
m
l
=
z
(
x
1
,
x
2
,
.
.
.
,
x
m
)
称
作
极
大
似
然
函
数
估
计
值
\theta_{ml}=z(x_1,x_2,...,x_m)称作极大似然函数估计值
θml=z(x1,x2,...,xm)称作极大似然函数估计值
在ML中:
θ
m
l
=
a
r
g
m
a
x
max
θ
l
(
θ
)
=
a
r
g
m
a
x
max
θ
∏
i
=
1
m
p
(
x
i
∣
θ
)
\theta_{ml}=argmax\displaystyle\max_\theta l(\theta)=argmax\displaystyle\max_\theta \displaystyle\prod_{i=1}^mp(x_i|\theta)
θml=argmaxθmaxl(θ)=argmaxθmaxi=1∏mp(xi∣θ)
实际中为了便于分析,定义了对数似然函数:
H
(
θ
)
=
l
n
l
(
θ
)
H(\theta)=lnl(\theta)
H(θ)=lnl(θ)
θ m l = a r g m a x max θ H ( θ ) = a r g m a x max θ l n l ( θ ) = a r g m a x max θ ∏ i = 1 m l n p ( x i ∣ θ ) \theta_{ml}=argmax\displaystyle\max_\theta H(\theta)=argmax\displaystyle\max_\theta lnl(\theta)=argmax\displaystyle\max_\theta \displaystyle\prod_{i=1}^mlnp(x_i|\theta) θml=argmaxθmaxH(θ)=argmaxθmaxlnl(θ)=argmaxθmaxi=1∏mlnp(xi∣θ)
2.1 未知参数只有一个(θ为标量)
在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:
2.1 未知参数有多个(θ为标量)
则θ可表示为具有S个分量的未知向量:
记梯度算子:
若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解:
方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。
最大似然估计举例理解:马同学