线性模型参数求解的最大似然估计、MAP估计、正则最小二乘估计

本文链接：https://blog.csdn.net/xfijun/article/details/109037563

线性模型参数求解的最大似然估计、MAP估计、正则最小二乘估计

1. 线性回归的概率模型
2. 最大似然估计
3. 正则最小二乘(Regularized least-squares)估计
4. 最大后验估计
举例：双月数据分类

$\qquad$ 本文主要描述针对线性回归模型 $y(\boldsymbol x,\boldsymbol w)=\boldsymbol w^T\boldsymbol\phi(\boldsymbol x)$ 采用最大似然估计、最大后验估计，以及正则最小二乘估计在求取参数 $\boldsymbol w$ 值的过程中的联系。
$\qquad$

1. 线性回归的概率模型

$\qquad$ 广义的线性回归函数可定义为：

$\qquad\qquad y(\boldsymbol x,\boldsymbol w)=\displaystyle\sum_{j=1}^Mw_j\phi_j(\boldsymbol x)=\boldsymbol w^T\boldsymbol\phi(\boldsymbol x)$

$\qquad$ 其中，权向量 $\boldsymbol w=[w_1,\cdots,w_M]^T$ ，观测数据 $\boldsymbol x=[x_{1},\cdots,x_{D}]^T$ ，基函数 $\boldsymbol\phi(\boldsymbol x)=[\phi_{1}(\boldsymbol x),\cdots,\phi_{M}(\boldsymbol x)]^T$ 。

$\qquad$
$\qquad$ 假设由线性回归函数 $y(\boldsymbol x,\boldsymbol w)$ 所刻画的目标变量 $t$ 满足：

$\qquad\qquad t=y(\boldsymbol x,\boldsymbol w)+\varepsilon$

$\qquad$ 已知观测误差 $\varepsilon\sim\mathcal N(0,\sigma^2)$ ，即： $p(\varepsilon)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp\left({-\dfrac{\varepsilon^2}{2\sigma^2}}\right)$

$\qquad$

考虑一个观测数据集 $\bold X=[\boldsymbol x_1,\cdots,\boldsymbol x_N]$ ，对应目标值向量为 $\bold t=[t_1,\cdots,t_N]^T$ ，那么第 $i$ 个目标变量 $t_i$ 满足：

$\qquad\qquad t_i=\displaystyle\sum_{j=1}^Mw_j\phi_j(\boldsymbol x_i)+\varepsilon_i$ 　或者　 $t_i=\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)+\varepsilon_i$

$\qquad$ 其中，权向量 $\boldsymbol w=[w_1,\cdots,w_M]^T$ ，第 $i$ 个观测数据 $\boldsymbol x_i=[x_{i1},\cdots,x_{iD}]^T$ 。
$\qquad$

对于基本线性模型 $t=\displaystyle\sum_{j=1}^Mw_jx_{j}+\varepsilon$ ，此时 $M = D$
基函数满足 $\phi_j(\boldsymbol x)=x_{j}$ ，因而 $\boldsymbol\phi(\boldsymbol x_i)=[x_{i1},\cdots,x_{ij},\cdots,x_{iM}]^T=\boldsymbol x_i$ ，那么：
　
$\qquad t_i=\displaystyle\sum_{j=1}^Mw_jx_{ij}+\varepsilon_i$ 　或者　 $t_i=\boldsymbol w^T\boldsymbol x_i+\varepsilon_i$

$\qquad$

由于观测误差 $\varepsilon_i\sim\mathcal N(0,\sigma^2)$ ，可得到第 $i$ 个目标变量 $t_i$ 的似然函数：

$\qquad\qquad p(t_i|\boldsymbol w,\boldsymbol x_i)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\dfrac{\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2}{2\sigma^2}\right\}$

$\qquad$

一般假设观测误差 $\varepsilon_i$ 满足独立同分布，可得到关于所有观测数据集 $\bold X$ 的目标值向量 $\bold t=[t_1,\cdots,t_N]^T$ 的似然函数（参数为权向量 $\boldsymbol w$ ， $\bold X$ 表示数据集）：

$\qquad\qquad\begin{aligned}p(\bold t|\boldsymbol w,\bold X)&=p(t_1,\cdots,t_N|\boldsymbol w,\bold X)\\ &=\displaystyle\prod_{i=1}^N p(t_i|\boldsymbol w,\boldsymbol x_i)\\ &=\dfrac{1}{(\sqrt{2\pi}\sigma)^N}\exp\left\{-\dfrac{1}{2\sigma^2}\sum\limits_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2\right\}\end{aligned}$

显然，此处的似然都是指 $p(\bold t|\boldsymbol w,\bold X)$ 随着参数 $\boldsymbol w$ 变化时的，而数据集 $\bold X$ 仅表示条件。

$\qquad$

2. 最大似然估计

$\qquad$ 在得到了所有观测变量的联合概率密度 $p(\bold t|\boldsymbol w,\bold X)$ 之后，最直接的方法就是采用最大似然估计求取权向量 $\boldsymbol w$ 的解。

$\qquad$ 对联合概率密度取对数，构成对数似然函数：

$\qquad\qquad\begin{aligned}\ln p(\bold t|\boldsymbol w,\bold X)&=\ln\dfrac{1}{(\sqrt{2\pi}\sigma)^N}-\dfrac{1}{2\sigma^2}\sum\limits_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2\\ &=-\dfrac{N}{2}\ln(2\pi)-N\ln\sigma-\dfrac{1}{2\sigma^2}\sum\limits_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2\end{aligned}$

观测数据集 $\bold X$ 出现在条件变量的位置，对于最大似然估计的求解而言可以忽略。

$\qquad$ 采用最大似然估计求取作为参数的权向量 $\boldsymbol w$ 的值，也就是：

$\qquad\qquad\nabla_{\boldsymbol w}\ln p(\bold t|\boldsymbol w,\bold X)=\dfrac{1}{\sigma^2}\displaystyle\sum_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]\boldsymbol\phi(\boldsymbol x_i)=0$

可以看出，在假设观测误差 $\varepsilon$ 满足高斯噪声的情况下：
最大化对数似然函数 $\ln p(\bold t|\boldsymbol w,\bold X)$ ，实际上就是最小化平方和误差函数 $\dfrac{1}{2\sigma^2}\displaystyle\sum_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2$

$\qquad\qquad\Longrightarrow\qquad$ $\displaystyle\sum_{i=1}^Nt_i\boldsymbol\phi(\boldsymbol x_i)=\displaystyle\sum_{i=1}^N[\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)]\boldsymbol\phi(\boldsymbol x_i)$

$\qquad\qquad\Longrightarrow\qquad$ $\underbrace{\left[\begin{matrix}\boldsymbol\phi(\boldsymbol x_1)&\cdots&\boldsymbol\phi(\boldsymbol x_N)\end{matrix}\right]\left[\begin{matrix}t_1\\\vdots\\t_N\end{matrix}\right]}_{\Phi^T\bold t}=\underbrace{\left[\begin{matrix}\boldsymbol\phi(\boldsymbol x_1)&\cdots&\boldsymbol\phi(\boldsymbol x_N)\end{matrix}\right]\left[\begin{matrix}\boldsymbol\phi(\boldsymbol x_1)^T\boldsymbol w\\\vdots\\\boldsymbol\phi(\boldsymbol x_N)^T\boldsymbol w\end{matrix}\right]}_{\Phi^T\Phi\boldsymbol w}$

$\qquad\qquad\Longrightarrow\qquad$ $\Phi^T\bold t=\Phi^T\Phi\boldsymbol w$

$\qquad$
$\qquad$ 可求得最大似然解：

$\qquad\qquad\boldsymbol w_{ML}=(\Phi^T\Phi)^{-1}\Phi^T\bold t$

或将误差函数写成矩阵的形式 $(\bold t-\Phi\boldsymbol w)^T(\bold t-\Phi\boldsymbol w)$ ，采用矩阵的微分得到

$\qquad$ 其中， $\boldsymbol\phi(\boldsymbol x)=[\phi_{1}(\boldsymbol x),\cdots,\phi_{M}(\boldsymbol x)]^T$ ， $\bold t=[t_1,\cdots,t_N]^T$

$\qquad\qquad\ \ \Phi=\left[\begin{matrix}\boldsymbol\phi(\boldsymbol x_1)^T\\\boldsymbol\phi(\boldsymbol x_2)^T\\\vdots\\\boldsymbol\phi(\boldsymbol x_N)^T\end{matrix}\right]=\left[\begin{matrix}\phi_{1}(\boldsymbol x_1)&\phi_{2}(\boldsymbol x_1)&\cdots&\phi_{M}(\boldsymbol x_1)\\\phi_{1}(\boldsymbol x_2)&\phi_{2}(\boldsymbol x_2)&\cdots&\phi_{M}(\boldsymbol x_2)\\\vdots&\vdots&&\vdots\\\phi_{1}(\boldsymbol x_N)&\phi_{2}(\boldsymbol x_N)&\cdots&\phi_{M}(\boldsymbol x_N)\end{matrix}\right]$

$\qquad\qquad\ \ \begin{aligned}\Phi^T\Phi&=\left[\begin{matrix}\boldsymbol\phi(\boldsymbol x_1)&\boldsymbol\phi(\boldsymbol x_2)&\cdots&\boldsymbol\phi(\boldsymbol x_N)\end{matrix}\right]\left[\begin{matrix}\boldsymbol\phi(\boldsymbol x_1)^T\\\boldsymbol\phi(\boldsymbol x_2)^T\\\vdots\\\boldsymbol\phi(\boldsymbol x_N)^T\end{matrix}\right]\\ &=\displaystyle\sum_{i=1}^N\boldsymbol\phi(\boldsymbol x_i)\boldsymbol\phi(\boldsymbol x_i)^T\end{aligned}$

$\qquad$

3. 正则最小二乘(Regularized least-squares)估计

$\qquad$ 上节在求最大似然解的时候，对数似然函数为：

$\qquad\qquad\ln p(\bold t|\boldsymbol w,\bold X)=-\dfrac{N}{2}\ln(2\pi)-N\ln\sigma-\dfrac{1}{\sigma^2}\left\{\dfrac{1}{2}\sum\limits_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2\right\}$
$\qquad$
$\qquad$ 可以看出，对数似然函数的最后一项就是平方和误差函数：

$\qquad\qquad\begin{aligned}E_D(\boldsymbol w)&=\dfrac{1}{2}\displaystyle\sum_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2\\ &=\dfrac{1}{2}(\bold t-\Phi\boldsymbol w)^T(\bold t-\Phi\boldsymbol w)\\ &=\dfrac{1}{2}\Vert\bold t-\Phi\boldsymbol w\Vert^2\end{aligned}$

$\qquad$ 因此，最大化对数似然函数 $\ln p(\bold t|\boldsymbol w,\bold X)$ ，实际上就是最小化平方和误差函数 $E_D(\boldsymbol w)$ 。为了防止以平方和误差函数作为代价函数时出现过拟合，可以添加正则化项来控制。因此，可以将代价函数修正为：

$\qquad\qquad E_D(\boldsymbol w)+\lambda E_W(\boldsymbol w)$

$\qquad$ 其中， $\lambda$ 是正则化系数，用于平衡误差函数和正则化项的重要性。

$\qquad$ 常用的正则化项可采用：

$\qquad\qquad E_W(\boldsymbol w)=\dfrac{1}{2}\Vert\boldsymbol w\Vert^2=\dfrac{1}{2}\boldsymbol w^T\boldsymbol w$

$\qquad$ 因此，得到了添加正则化项之后的代价函数 $F(\boldsymbol w)$ ，也就是：

$\qquad\qquad F(\boldsymbol w)=\dfrac{1}{2}\Vert\bold t-\Phi\boldsymbol w\Vert^2+\dfrac{\lambda}{2}\Vert\boldsymbol w\Vert^2$

$(1)$ 当 $\lambda=0$ ，表明对“由观测训练样本集 $\bold X$ 所描述的的观测模型”有完全的把握
$(2)$ 当 $\lambda=\infty$ ，表明对“由观测训练样本集 $\bold X$ 所描述的的观测模型”没有把握

$\qquad$
$\qquad$ 为了最小化代价函数 $F(\boldsymbol w)$ ，令 $\nabla_{\boldsymbol w}F(\boldsymbol w)=-\Phi^T\bold t+\left(\Phi^T\Phi+\lambda\bold I\right)\boldsymbol w=0$
　
$\qquad$ 可得到正则最小二乘解：

$\qquad\qquad\boldsymbol w=\left[\Phi^T\Phi+\lambda\bold I\right]^{-1}\Phi^T\bold t$

如果采用基本线性模型 $t=\displaystyle\sum_{j=1}^Mw_jx_{j}+\varepsilon$ ，满足 $\boldsymbol\phi(\boldsymbol x_i)=\boldsymbol x_i$
$t_i=\displaystyle\sum_{j=1}^Mw_jx_{ij}+\varepsilon_i$ 　或者　 $t_i=\boldsymbol w^T\boldsymbol x_i+\varepsilon_i$
平方和误差： $E_D(\boldsymbol w)=\displaystyle\sum_{i=1}^N\varepsilon_i^2=\displaystyle\sum_{i=1}^N(t_i-\boldsymbol w^T\boldsymbol x_i)^2=(\bold t-\Phi\boldsymbol w)^T(\bold t-\Phi\boldsymbol w)$
　
此时， $\Phi=\left[\begin{matrix}\boldsymbol\phi(\boldsymbol x_1)^T\\\boldsymbol\phi(\boldsymbol x_2)^T\\\vdots\\\boldsymbol\phi(\boldsymbol x_N)^T\end{matrix}\right]=\left[\begin{matrix}\boldsymbol x_1^T\\\boldsymbol x_2^T\\\vdots\\\boldsymbol x_N^T\end{matrix}\right]= \left[\begin{matrix}x_{11}&x_{12}&\cdots&x_{1M}\\x_{21}&x_{22}&\cdots&x_{2M}\\\vdots\\x_{N1}&x_{N2}&\cdots&x_{NM}\end{matrix}\right]$
　
采用正则化方法防止过拟合，优化函数可表示为： $F(\boldsymbol w)=(\bold t-\Phi\boldsymbol w)^T(\bold t-\Phi\boldsymbol w)+\lambda\boldsymbol w^T\boldsymbol w$
　
令 $\nabla_{\boldsymbol w}F(\boldsymbol w)=0$ ，可得到： $\boldsymbol w=[\Phi^T\Phi+\lambda\bold I]^{-1}\Phi^T\bold t$

$\qquad$

4. 最大后验估计

$\qquad$ 从贝叶斯分析的观点，需要考虑作为参数的权向量 $\boldsymbol w=[w_1,\cdots,w_M]^T$ 的先验概率。
$\qquad$

仍然假设权向量的各元素 $w_i$ 满足独立同分布，且满足 $w_i\sim\mathcal N(0,\sigma_w^2)$ ，可得到先验概率：

$\qquad\qquad\begin{aligned} p(\boldsymbol w)&=p(w_1,\cdots,w_M)\\&=\displaystyle\prod_{i=1}^Mp(w_i)\\ &=\dfrac{1}{(\sqrt{2\pi}\sigma_w)^M}\displaystyle\prod_{i=1}^M\exp\left({-\dfrac{w_i^2}{2\sigma_w^2}}\right)\\ &=\dfrac{1}{(\sqrt{2\pi}\sigma_w)^M}\exp\left({-\dfrac{1}{2\sigma_w^2}}\displaystyle\sum_{i=1}^Mw_i^2\right)\\ &=\dfrac{1}{(\sqrt{2\pi}\sigma_w)^M}\exp\left({-\dfrac{\Vert\boldsymbol w\Vert^2}{2\sigma_w^2}}\right)\end{aligned}$
$\qquad$

由贝叶斯公式，可得到后验概率满足：

$\qquad\qquad p(\boldsymbol w|\bold t,\bold X)=\dfrac{p(\bold t|\boldsymbol w,\bold X)p(\boldsymbol w)}{p(\bold t)}\propto p(\bold t|\boldsymbol w,\bold X)p(\boldsymbol w)$
$\qquad$
$\qquad$ 采用第 $1$ 部分描述的线性回归的概率模型，目标向量 $\bold t$ 的似然函数为：

$\qquad\qquad p(\bold t|\boldsymbol w,\bold X)=\dfrac{1}{(\sqrt{2\pi}\sigma)^N}\exp\left\{-\dfrac{1}{2\sigma^2}\sum\limits_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2\right\}$

$\qquad$ 那么

$\qquad\qquad\begin{aligned} p(\boldsymbol w|\bold t,\bold X)&\propto\dfrac{1}{(\sqrt{2\pi}\sigma)^N}\exp\left\{-\dfrac{1}{2\sigma^2}\sum\limits_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2\right\}\dfrac{1}{(\sqrt{2\pi}\sigma_w)^M}\exp\left({-\dfrac{\Vert\boldsymbol w\Vert^2}{2\sigma_w^2}}\right)\\ &\propto\exp\left\{-\dfrac{1}{2\sigma^2}\sum\limits_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2-\dfrac{\Vert\boldsymbol w\Vert^2}{2\sigma_w^2}\right\}\\ &\propto-\left\{\dfrac{1}{2}\sum\limits_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2+\dfrac{\lambda}{2}\Vert\boldsymbol w\Vert^2\right\}\end{aligned}$

$\qquad\qquad$ 其中，定义 $\lambda=\dfrac{\sigma^2}{\sigma_w^2}$
$\qquad$

权向量 $\boldsymbol w$ 的最大后验估计值为：

$\qquad\qquad\begin{aligned}\boldsymbol w_{MAP}&=\displaystyle\max_{\boldsymbol w} p(\boldsymbol w|\bold t,\bold X)\\&=\displaystyle\max_{\boldsymbol w} \left\{-\dfrac{1}{2}\sum\limits_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2-\dfrac{\lambda}{2}\Vert\boldsymbol w\Vert^2\right\}\end{aligned}$
$\qquad$
$\qquad$ 相当于定义了代价函数 $F(\boldsymbol w)$ ，也就是：

$\qquad\qquad\begin{aligned}F(\boldsymbol w)&=\dfrac{1}{2}\displaystyle\sum_{i=1}^N\left[t_i-\boldsymbol w^T\boldsymbol\phi(\boldsymbol x_i)\right]^2+\dfrac{\lambda}{2}\Vert\boldsymbol w\Vert^2\\ &=\dfrac{1}{2}\Vert\bold t-\Phi\boldsymbol w\Vert^2+\dfrac{\lambda}{2}\Vert\boldsymbol w\Vert^2\end{aligned}$

$\qquad$
$\qquad$ 最大后验估计值就为： $\boldsymbol w_{MAP}=\displaystyle\min_{\boldsymbol w} F(\boldsymbol w)$

$\qquad$ 显然，在假设权向量各元素满足独立同分布、且 $w_i\sim\mathcal N(0,\sigma_w^2)$ 的条件下，权向量 $\boldsymbol w$ 的最大后验解，就是第 $3$ 节所描述的正则最小二乘解。
$\qquad$
$\qquad$ 此时，权向量 $\boldsymbol w$ 的最大后验解为： $\boldsymbol w=\left[\Phi^T\Phi+\lambda\bold I\right]^{-1}\Phi^T\bold t$

$\qquad$ 特别地，当取 $\lambda=0\ (\sigma_w^2=\infty)$ 时，权向量各元素 $w_i$ 近似于均匀分布，也就是完全忽视权向量 $\boldsymbol w$ 的先验信息，此时的最大后验解就等价于最大似然解，也就是： $\boldsymbol w_{MAP}=\boldsymbol w_{ML}=\left(\Phi^T\Phi\right)^{-1}\Phi^T\bold t$ 。
$\qquad$

举例：双月数据分类

import numpy as np
import matplotlib.pyplot as plt

def gen_lineardata(weight,interval):
    y = -(weight[0]*interval + weight[2])/weight[1]
    return y

def halfmoon(rad, width, dist, n_samp):      
    if n_samp%2 != 0:  
        n_samp += 1      
    data = np.zeros((3,n_samp))      
    rd = np.random.random((2,n_samp//2))  
    radius = (rad-width//2) + width*rd[0,:] 
    theta = np.pi*rd[1,:]          
    x1     = radius*np.cos(theta)  
    y1     = radius*np.sin(theta) + dist/2  
    label1 = np.ones((1,len(x1)))           # label= 1 for Class 1  
    rd = np.random.random((2,n_samp//2))   
    radius = (rad-width//2) + width*rd[0,:] 
    theta = np.pi*rd[1,:]
    x2    = radius*np.cos(-theta) + rad  
    y2    = radius*np.sin(-theta) - dist/2  
    label2= -1*np.ones((1,len(x2)))           # label= 0 for Class 2       
    data[0,:]=np.concatenate([x1,x2])
    data[1,:]=np.concatenate([y1,y2])
    data[2,:]=np.concatenate([label1,label2],axis=1)    
    shuffle_seq = np.random.permutation(np.arange(n_samp))  
    data_shuffle = data[:,shuffle_seq]
    return data,data_shuffle

def RLS(xhat,target,lambda0):
    Phi = np.asmatrix(xhat)
    t = np.asmatrix(target)
    print(Phi.T*Phi)
    print(Phi.T*Phi+lambda0*np.eye(len(xhat.T)))    
    return np.array((Phi.T*Phi+lambda0*np.eye(len(xhat.T))).I*Phi.T*t)    

if __name__ == "__main__":
    dNum = 800    
    data,data_shuffle = halfmoon(10,6,1,dNum)
    #data,data_shuffle = halfmoon(10,6,-4,dNum)
    pos_data = data[:,0:dNum//2]
    neg_data = data[:,dNum//2:dNum]  
    training_data = data_shuffle.T
    tmp1 = training_data[0:dNum,0:2]
    tmp2 = np.ones((dNum,1))
    xhat = np.concatenate((tmp1,tmp2),axis=1)
    target = training_data[0:dNum,2:]    
    interval = np.linspace(-12,20,100)    
    weight = RLS(xhat,target,0)
    print('RLS:',weight.flatten())    
    y = gen_lineardata(weight,interval)
    plt.figure   
    plt.plot(interval,y,'k')       
    plt.plot(pos_data[0,:],pos_data[1,:],'b+')
    plt.plot(neg_data[0,:],neg_data[1,:],'r+')        
    plt.title('Regularized least squares')     
    plt.show()