机器学习中的极大似然估计

本文链接：https://blog.csdn.net/zhakngye/article/details/107406246

极大似然估计（MLE）

考虑一组含有 $m$ 个样本的数据集 $\mathbb{X}=\{x^{(1)}, ..., x^{(m)}\}$ ,独立的由未知的真实数据生成分布 $p_{data}(\mathbf{x})$ 生成。
令 $p_{model}(\mathbf{x;\theta)}$ 是由模型参数确定在相同特征空间上的概率分布。模型由参数 $\theta$ 唯一确定，参数 $\theta$ 确定了一个参数空间 $\Theta$ ，不同的 $\theta$ 对应的不同的模型。机器学习的本质就是希望通过数据找到数据背后的真实生成分布 $p_{data}$ ，也就是希望用模型分布 $p_{model}$ 拟合数据生成分布 $p_{data}$ ，但是数据生成分布 $p_{data}$ 是未知的，是我们想要拟合的对象。我们拥有的是从 $p_{data}$ 采样得到的有限的样本。因此，模型训练的本质就在参数空间 $\Theta$ 上寻找最优参数 $\hat{\theta}$ 使模型拟合训练集，也就是使模型分布近似训练集上的经验分布 $\hat{p}_{data}(x)$ 。训练模型事实上就在训练集上对参数 $\theta$ 的极大似然估计。从贝叶斯估计的角度，参数的极大似然估计体现了数据对模型参数的偏好。

$\theta$ 的极大似然被定义为：
$\begin{aligned} \theta_{ML}&=\underset{\theta}\mathbf{arg\ max}\ p_{model}(\mathbb{X};\theta)\\ &=\underset{\theta}\mathbf{arg\ max}\ \prod_{i=1}^{m}p_{model}(x^{(i)};\theta) \end{aligned}$
因此模型的训练就是以最大化似然函数为目标的优化问题。该问题的目标函数为：
$L(\theta)=\prod_{i=1}^mp_{model}(x^{(i)};\theta)$

使用对数似然（Log-Likelihood，LL）可将乘积转换为求和，更便于计算。
$lnL(\theta)=\sum_{i=1}^mlnp_{model}(x^{(i)};\theta)$
实践中，通常以负对数似然（Negative Log-Likelihood, NLL）作为代价函数，并通过最小化代价函数寻找最优参数。
$\begin{aligned} J(\theta)&= -lnL(\theta)\\ &=-\sum_{i=1}^mlnp_{model}(x^{(i)};\theta) \end{aligned}$
以上就是机器学习中参数模型通用理论基础。主要是两个部分：

定义模型，即定义 $p_{model}$ 。
训练模型，即求 $\hat{\theta}=\underset{\theta}{arg\ min}\ J(\theta)$

条件似然估计

最大似然估计很容易扩展到估计条件概率 $(\mathbf{y}|\mathbf{x};\theta)$ ，从而给定x预测y。实际上这是最常见的情况，因为这构成了大多数监督学习的基础。如果 $X$ 表示所有的输入， $Y$ 表示我们观测到的目标，那么条件最大似然估计是
$\begin{aligned} \theta_{ML}&=\underset {\theta} {\mathbf{arg\ max}}P(Y|X;\theta)\\ &=\underset{\theta}{\mathbf{arg \ max}}\sum_{i=1}^mlnP(y^{(i)}|x^{(i)};\theta) \end{aligned}$

监督学习中的判别模型，直接对类别后验概率分布 $p (y ∣ x)$ 进行建模，并不关心 $x$ 的分布是如何的。类似的，在这种情况下，我们希望用模型分布 $p_{model}(y|x;\theta)$ 对真实的条件概率分布 $p_{data}(y|x)$ 进行近似。此时，似然函数为：
$L(\theta)=\prod_{i=1}^mp_{model}(y^{(i)}|x^{(i)};\theta)$
代价函数为：
$\begin{aligned} J(\theta)&=-lnL(\theta)\\ &=-\sum_{i=1}^mlnp_{model}(y^{(i)}|x^{(i)};\theta) \end{aligned}$

似然函数的解释

似然函数是模型参数 $\theta$ 的函数，是在模型分布上采样得到数据生成分布上的观测值的概率值。如果这个概率值越大，就说明模型分布越接近真实数据分布。这个函数就衡量了模型分布 $p_{model}$ 和真实数据生成分布 $p_{data}$ 之间的匹配程度。最大似然的目的就是寻找模型假设空间中的最优参数 $\theta$ ，使得模型拟合样本。

范式

1. Logistic Regression

比如在Logistic Regression中，直接对二分类问题建立概率模型。模型输出为：
$\hat{y}=p(y=1|x;\mathbf w, b)=\sigma(\mathbf{w}^Tx+b)$
其中 $\sigma(\cdot)$ 为sigmoid函数，定义为：
$\sigma(x)=\large{\frac{1}{1+\mathbf{exp}(-x)}}$

利用条件MLE来估计其模型参数 $\mathbf{w}$ 和 $b$ 。
首先，模型为
$p_{model}(y|x;\theta)=\sigma(\mathbf{w}^Tx^{(i)}+b)^{y^{(i)}}(1-\sigma(\mathbf{w}^Tx^{(i)}+b))^{(1-y^{(i)})}$

似然函数为
$\begin{aligned} L(\theta)&=\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)\\ &=\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)=\sigma(\mathbf{w}^Tx+b)^{y^{(i)}}(1-\sigma(\mathbf{w}^Tx+b))^{(1-y^{(i)})} \end{aligned}$
代价函数为：
$\begin{aligned} J(\theta)&=-lnL(\theta)\\ &= -\sum_{i=1}^m[y^{(i)}\mathbf{log}y^{(i)}+(1-y^{(i)})(1-\mathbf{log}y^{(i)})] \end{aligned}$

在机器学习中，代价函数要取平均，使模型不受训练数据大小的影响。因此有：
$J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\mathbf{log}y^{(i)}+(1-y^{(i)})(1-\mathbf{log}y^{(i)})]$
这就是标准的Logistic Regression的代价函数了，可以看出它完全可以有概率的角度推导出来。

2. Linear Regression

线性回归可以从最小二乘的角度拟合模型，也可以认为是一种概率模型。
首先，模型的预测输出为：
$\hat{y}=h_{\theta}(x)=\theta^Tx$
为使模型参数拟合训练集，可直接定义代价函数为：
$J(\theta)=\frac{1}{m}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2$
这被称为最小二乘回归。
线性回归也可以从概率的角度进行解释。
$y=\hat{y}+\epsilon=\theta^Tx+\epsilon$
其中， $\epsilon$ 为预测误差。
假设 $\epsilon\sim N(0, \sigma^2)$ ，有
$y\sim N(\theta^Tx, \sigma^2)$
线性模型的建立的条件概率为：
$p_{model}(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma^2}\mathbf {exp}(-\frac{1}{2\sigma^2}(y^{(i)}-\theta^Tx^{(i)}))^2$
以负对数似然为代价函数，有
$\begin{aligned} J(\theta)&=mln(\sqrt{2\pi\sigma^2})+\frac{m}{2\sigma^2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2\\ &\propto\frac{1}{m}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 \end{aligned}$

3. Softmax Regression

Softmax Regression是Logistic Regression在多分类问题上的推广。假设所分类任务有 $k$ 个类别，则对于一个输入样本 $x$ ，则Softmax Regression输出一个概率分布 $\mathbf{p}=(p_1, p_2,..., p_k)^T$
$\mathbf p=s(Wx)$
其中， $W=(\theta_1^T, \theta_2^T, ...,\theta_k^T)^T$ 为权重矩阵， $s$ 为softmax函数,定义如下：
$s_i(x)=\frac{\mathbf{exp}(x_i)}{\sum \mathbf{exp}(x_i)}$

模型确定的条件概率分布为：
$p_{model}(\mathbf y|x;W)=\prod_{i-1}^ks_i(Wx)^{y_i}=\mathbf y^Ts(Wx)$
其中 $\mathbf y$ 是类别的one-hot编码。
以负对数似然为代价函数，可得：
$\begin{aligned} J(\theta)&=-\frac{1}{m}\sum_{i=1}^mln(\mathbf y^{(i)T}s(Wx^{(i)}))\\ &=-\frac{1}{m}\sum_{i=1}^mln(\prod_{i-1}^ks_i(Wx^{(i)})^{y_i^{(i)}})\\ &=-\frac{1}{m}\sum_{i=1}^m \sum_{j=1}^ky_i^{(i)}ln(s_i(Wx^{(i)})) \end{aligned}$