凸优化理论学习七|统计估计

丁希希哇

于 2024-05-19 13:38:12 发布

阅读量803

点赞数 23

分类专栏：统计相关理论文章标签：学习概率论凸优化

本文链接：https://blog.csdn.net/weixin_47748259/article/details/139031440

版权

统计相关理论专栏收录该内容

16 篇文章 0 订阅

订阅专栏

系列文章目录

文章目录

系列文章目录
一、最大似然估计
二、假设检验
三、实验设计

一、最大似然估计

（一）最大似然估计与凸优化

在参数分布估计中，我们选择一个参数 $x$ 来使得观测数据 $y$ 的概率 $p_x(y)$ 最大。通过对数变换得到的对数似然函数 $l(x)=log\ p_x(y)$ 可以简化计算。如果对数似然函数在固定 $y$ 的情况下对参数 $x$ 是凹的（即二阶导数为负或者半正定），那么这是一个凸优化问题。（与 $log\ p_x(y)$ 在固定 $x$ 的情况下对 $y$ 凹是不同的，即 $p_x(y)$ 是一组对数凹密度）

（二）带有独立同分布（IID）噪声的线性测量模型

线性测量模型： $y_i=a_i^Tx+v_i,i=1,...,m$

$x\in R^n$ 是未知参数向量
$v_i$ 是独立同分布的测量噪声，具有密度函数 $p (z)$
$y_i$ 是测量值， $y\in R^m$ 是测量值的向量，测量值 $y$ 的密度函数为 $p_x(y)=\prod_{i=1}^m p(y_i-a^T_ix)$
$a_i \in R^n$ 是已知的系数向量

最大似然估计：
$x_{MLE}=argmax_x\sum_{i=1}^mlog p(y_i-a_i^Tx)$

（三）逻辑回归

随机变量 y ∈ {0, 1}具有的分布：
$p=prob(y=1)=\frac{exp(a^Tu+b)}{1+exp(a^Tu+b)}$

根据 m 个观测值 $u_i, y_i)$ 估计 a、b（凹的）：（ $y_1=y_2=...=y_k=1,y_{k+1}=...=y_m=0$ ）
在这里插入图片描述

（四）高斯协方差估计

将高斯分布 $N (0, Σ)$ 拟合到观测数据 $y_1, ..., y_N$ ：

$Y$ 是经验协方差矩阵： $Y=(1/N)\sum_{k=1}^Ny_ky_k^T$
在没有约束或正则化的情况下，MLE的解是经验协方差矩阵，即 $\Sigma_{ml}=Y$

对数似然函数 $l$ 对于 $Σ$ 来说不是凹的，这使得优化问题变得复杂，可以通过更改变量 $S=\Sigma^{-1}$ 的方式来变为凹的：
$L(S)=\frac{N}{2}(-2\pi n+log \ det\ S-tr\ SY)$

$S$ 是高斯的精度矩阵， $S_{ij} = 0$ 表示 $y_i$ 和 $y_j$ 独立，条件是 $y_k, k ≠ i, j$
稀疏 $S$ 意味着：
- 在给定其他成分的情况下，许多成分对是条件独立的
- $y$ 由稀疏（高斯）贝叶斯网络描述

为了拟合稀疏的精度矩阵 $S$ ，最小化如下目标函数：（凸的）
$min_{S\in S^n}-log\ det\ S+tr(SY)+\lambda \sum_{i\neq j}|S_{ij}|$

$-log\ det\ S$ ：
- 确保精度矩阵 $S$ 是正定的，并且具有稳定的数值性质
- 是关于 S 的凸函数，因为定义在正定矩阵上
$t r (S Y)$ ：
- 确保 $S$ 拟合数据的统计性质，即 $S$ 与数据的经验协方差矩阵 $Y$ 一致
- 是关于 $S$ 的线性函数，因此也是凸的
$\lambda \sum_{i\neq j}|S_{ij}|$
- 通过惩罚 $S$ 中非对角元素的绝对值强制精度矩阵的稀疏性
- 是关于 S 的 $l_1$ 范数，体现了稀疏性的正则化项，也是凸的

二、假设检验

（一）（二元）假设检验

在假设检验问题中，我们需要基于观察到的随机变量 $X$ （取值范围为 ${1,...,n\}$ ）来在两个假设之间做出选择。这个问题的设定如下：

假设 1：随机变量 $X$ 由分布 $p = (p_1, . . . , p_n)$ 生成
假设 2：随机变量 $X$ 由分布 $q = (q_1, . . . , q_n)$ 生成

为了做出决策，我们使用一个随机检测器，其定义为一个非负矩阵 $T\in R^{2\times n}$ ，并满足以下性质：

非负矩阵 $T\in R^{2\times n}$ 每列的概率之和必须为1，即 $1^T=1^T$ ，这保证了对于每个观察值 $X$ ，选择任意一个假设的概率之后为1
如果观察到 $X = k$ ，则以 $t_{1k}$ 的概率选择假设1，以 $t_{2k}$ 的概率选择假设2
如果 $T$ 的所有元素都是0或者1，就成为确定性检测器

（二）检测概率矩阵

$P_{fp}$ 和 $P_{fn}$ 是检测器的两个性能指标：

$P_{fp}$ 是如果 $X$ 由分布 1 生成（假阳性），则选择假设 2 的概率
$P_{fn}$ 是如果 X 由分布 2 生成（假阴性），则选择假设 1 的概率

多目标检测器设计问题：

目标函数：最小化 $P_{fp},P_{fn})=((Tp)_2,(Tq)_1)$
约束条件：
- $t_{1k}+t_{2k}=1,\ k=1,...,n$
- $t_{ik}\geq 0,\ i=1,2,\ k=1,...,n$

（三）标量化

标量化多目标检测器设计问题的核心思想是将多个目标函数组合成一个单一的标量目标函数，从而将多目标优化问题转化为单目标优化问题。用权重 $\lambda>0$ 标量化以获得：

目标函数：最小化 $(Tp)_2+\lambda(Tq)_1$
约束条件：
- $t_{1k}+t_{2k}=1,\ k=1,...,n$
- $t_{ik}\geq 0,\ i=1,2,\ k=1,...,n$

这个问题可以转化为线性规划问题，因为它具有简单的分段线性特征，并且具有简单的解析解：

如果 $p_k\geq \lambda q_k$ ，选择 $t_{1k}=1$ 和 $t_{2k}=0$
如果 $p_k\leq \lambda q_k$ ，选择 $t_{1k}=0$ 和 $t_{2k}=1$
如果 $p_k = \lambda q_k$ ，可以选择 $0\leq t_{1k}\leq1$ ，并令 $t_{1k}=1-t_{2k}$

（四）极大极小检测器

极大极小（Max-Min）检测器是一种常见的检测器设计方法，其目标是在所有可能情况下最大化最差情况的性能。这种方法的核心思想是，在考虑所有可能情况时，选择使得最差情况下性能最优的方案。

最小化假阳性和假阴性概率的最大值：

目标函数：最小化 $max\{P_{fp},P_{fn}\}=max\{(Tp)_2,(Tq)_1\}$
约束条件：
- $t_{1k}+t_{2k}=1,\ k=1,...,n$
- $t_{ik}\geq 0,\ i=1,2,\ k=1,...,n$

极大极小检测器的解决方案通常不是确定性的。它具有较高的鲁棒性，适用于处理不确定性和变化的环境。但是设计和优化Max-Min检测器可能需要更多的计算资源和时间，因为需要考虑各种可能情况，并进行相应的优化。

三、实验设计

（一）选择 $a_i$ 使得 $E$ 最小化

设计一个实验，选择测量向量 $a_i$ 以最小化估计误差的协方差矩阵 $E$ ，具体来说，给定一下模型：
$y_i=a_i^Tx+w_i,\ i=1,...,m$
其中 $w_i$ 是独立同分布的 $N (0, 1)$ 噪声；未知的向量 $x$ 通过最小二乘估计 $\hat{x}$ 来估计：
$\hat{x}=(\sum_{i=1}^ma_ia_i^T)^{-1}\sum_{i=1}^my_aa_i$
估计误差 $e=\hat{x}-x$ 的协方差矩阵为：
$E=E[ee^T]=(\sum_{i=1}^ma_ia_i^T)^{-1}$
置信椭球体由以下公式给出：
$\{x|(x-\hat{x})^TE^{-1}(x-\hat{x})\leq \beta\}$

（二）向量优化公式

在向量优化问题中，我们的目标是通过选择合适的测量向量数量 $m_k$ 来最小化估计误差的协方差矩阵 $E$
$\sum_{i=1}^ma_ia_i^T=\sum_{k=1}^pm_kv_kv_k^T$

目标函数：最小化 $E=(\sum_{k=1}^pm_kv_kv_k^T)^{-1}$
约束条件：
- 非负性约束： $m_k\geq 0$
- 和约束： $m_1+m_2+...m_p=m$
- 整数约束： $m_k\in Z$

其中，变量 $m_k$ 表示等于向量 $v_k$ 的测量变量 $a_i$ 的数量。由于整数约束的存在，直接优化 $E$ 可能困难，我们通常采用常见的标量化方法来简化问题：最小化对数行列式（ $min\ log\ det(E)$ ）、最小化迹（ $min\ tr(E)$ ）、最小化最大特征值（ $min\ \lambda_{max}(E)$ ）

（三）宽松的实验设计

假设 $m >> p$ ，可以将 $\lambda_k=m_k/m$ 视为连续的实数变量，这样可以重新表达约束条件和优化目标：

目标函数：最小化 $E=((1/m)\sum_{k=1}^p\lambda_kv_kv_k^T)^{-1}$
约束条件： $\lambda\geq 0,\ 1^T\lambda=1$

通过将 $m_k$ 替换为了 $m\lambda_k$ ，就将原始的整数约束转换为了 $\lambda_k$ 的连续约束：

这使得优化问题更易于处理，因为我们可以使用标准的优化技术来解决它。
可能会导致结果的微小变化：最优值是（整数）实验设计问题的最优值的下界。因此，在实践中，我们可能需要考虑如何处理这种近似所带来的影响，以及如何选择适当的 m 值来保证结果的准确性。

（四）D-最优设计问题

D-最优设计是实验设计中的一种方法，通过选择设计点来最小化估计参数的协方差矩阵的行列式，从而最小化估计的不确定性。具体而言，D-最优设计最小化的是协方差矩阵行列式的对数。

通过对数行列式进行标量化：

目标函数：最小化 $log\ det\ (\sum_{k=1}^p\lambda_kv_kv_k^T)^{-1}$
约束条件： $\lambda\geq 0,\ 1^T\lambda=1$

行列式的几何解释是对应置信椭球体的体积，因此最小化协方差矩阵的行列式的对数相当于最小化估计的不确定性，使得置信椭球体的体积最小。

（五）D-最优实验设计问题的对偶

对偶问题：

目标函数：最小化 $log\ det \ W+nlog\ n$
约束条件： $v_K^TWv_k\leq 1,\ k=1,...,p$

对偶问题的约束条件表示所有的测试向量 $v_k$ 都包含在由矩阵 $W$ 定义的椭球体内，该椭球体的定义为： ${x | x^T Wx ≤ 1\}$ ，是以原点为中心的最小体积椭球体，包括所有测试向量 $v_k$ 。

互补松弛性：
$\lambda_k(1-v_k^TWv_k)=0,\ k=1,...,p$

互补松弛条件在原始问题和对偶问题之间提供了一个连接。对于每个 $k$ ，要么 $\lambda_k=0$ ，要么 $v_k$ 恰好位于椭球体的边界上。

（六）对偶的推导

为了推导 D-最优实验设计问题的对偶问题，我们首先重新表述原始问题并引入一个新的变量 $X$ ：

目标函数：最小化 $log\ det X^{-1}$
约束条件： $X=\sum_{k=1}^p\lambda_kv_kv_k^T,\ \lambda\geq 0,\ 1^T\lambda=1$

引入拉格朗日乘子 $Z$ 和 $z$ ，以及标量乘子 $ν$ ，构造拉格朗日函数：
$L(X,\lambda,Z,z,v)=log\ det\ X^{-1}+tr(Z(X-\sum_{k=1}^p\lambda_kv_kv_k^T))-z^T\lambda+v(1^T\lambda-1)$

通过将梯度设置为零来最小化 $X$ ： $- X - 1 + Z = 0$ ，而 $\lambda_k$ 的最小值是 $- \infty$ ，除非 $v_k^TZv_k-z_k+v=0$ ，因此有 $z_k=v-v_k^TZv_k$

将这些结果代入拉格朗日函数消去 $X$ 和 $\lambda_k$ 可以得到对偶函数：

目标函数：最大化 $n+log\ det Z-v$
约束条件： $v_k^TZv_k\leq v,\ k=1,...,p$

丁希希哇

关注

23
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
凸优化理论学习七|统计估计

极大极小（Max-Min）检测器是一种常见的检测器设计方法，其目标是在所有可能情况下最大化最差情况的性能。D-最优设计是实验设计中的一种方法，通过选择设计点来最小化估计参数的协方差矩阵的行列式，从而最小化估计的不确定性。标量化多目标检测器设计问题的核心思想是将多个目标函数组合成一个单一的标量目标函数，从而将多目标优化问题转化为单目标优化问题。行列式的几何解释是对应置信椭球体的体积，因此最小化协方差矩阵的行列式的对数相当于最小化估计的不确定性，使得置信椭球体的体积最小。在参数分布估计中，我们选择一个参数。
复制链接

扫一扫