补充学习：Logistic回归和Softmax回归

耶hu

已于 2024-02-20 11:24:32 修改

阅读量403

点赞数 10

分类专栏： CV入门学习笔记文章标签：学习回归

于 2024-02-07 13:21:34 首次发布

本文链接：https://blog.csdn.net/weixin_62653714/article/details/136067369

版权

CV入门学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

学习笔记自用，补充上篇【论文学习】的数学内容

Logistic回归

是一种常用的处理二分类问题的线性模型。为了解决连续的线性函数不适合进行分类的问题，引入非线性函数

$g:\mathbb{R}^D\rightarrow (0,1)$

来预测类别标签的后验概率p(y=1|x)

$p(y=1|\textbf{\textit{x}}) = g(f(\textbf{\textit{x}};\boldsymbol{\omega}))$

$g(\cdot )$ 通常称为激活函数，把线性函数的值域映射到（0, 1）之间，表示概率，其逆函数 $g^{-1}(\cdot)$ 被称为连续函数。标签 $y=1$ 的后验概率为

$p(y=1|\textbf{\textit{x}})=\frac{1}{1+exp(-\boldsymbol{\omega}^T\textbf{\textit{x}})}$

其中， $\textbf{\textit{x}}=[x_1,x_2,...,x_D,1]^T,\boldsymbol{\omega}=[\omega_1,\omega_2,...,\omega_D,b]^T$ 分别为D+1维的增广特征向量和增广权重向量。标签 $y=0$ 的后验概率为 $p(y=0|\textbf{\textit{x}})=1-p(y=1|\textbf{\textit{x}})$

Logistic回归采用交叉熵作为损失函数，并且使用梯度下降法来对参数进行优化。给定N个训练样本 $\{(\textbf{\textit{x}}^{(n)},\boldsymbol{\omega}^{(n)})\}_{n=1}^N$ ，用logistic回归模型对每个样本进行预测，输出其标签为1的后验概率 $\hat{y}^{(n)}$ 。因为 ${y}^{(n)}\in \{0,1\}$ ，所以样本 $(\textbf{\textit{x}}^{(n)},\boldsymbol{y}^{(n)})$ 的真实条件概率可以表示为

$p_r(y^{(n)}=1|\textbf{\textit{x}}^{(n)})=y^{(n)}$

$p_r(y^{(n)}=0|\textbf{\textit{x}}^{(n)})=1-y^{(n)}$

使用交叉熵损失函数，其风险函数为

$\mathfrak{R}(\boldsymbol{\omega })\\=-\frac{1}{N}\sum_{n=1}^N\big(p_r(y^{(n)}=1|\textbf{\textit{x}}^{(n)})log(\hat{y}^{(n)})+p_r(y^{(n)}=0|\textbf{\textit{x}}^{(n)})log(1-\hat{y}^{(n)})\big) \\=-\frac{1}{N}\sum_{n=1}^N\big(y^{(n)}log(\hat{y}^{(n)})+(1-y^{(n)})log(1-\hat{y}^{(n)})\big)$

风险函数关于参数 $\boldsymbol{\omega }$ 的偏导数为：

采用梯度下降方法，Logistic回归的训练过程为：初始化 $\boldsymbol{\omega}_0\leftarrow 0$ ，然后通过下式来迭代更新参数

$\boldsymbol{\omega }_{t+1}=\boldsymbol{\omega }_t+\alpha \frac{1}{N}\sum_{n=1}^N\textbf{\textit{x}}^{(n)}(y^{(n)}-\hat{y}^{(n)}_{\omega _t})$ 。 $\hat{y}^{(n)}_{\omega _t}$ 是参数为 $\boldsymbol{\omega }_t$ 时，Logistic回归模型的输出。

softmax回归

也称为多分类的Logistic回归，是Logistic在多分类问题上的推广。对于多分类问题，类别标签y∈(1, 2, 3, ... , C)可以有C个取值。给定一个样本x，Softmax函回归预测得到的属于类别c的条件概率为：

$p(y=c|\textbf{\textit{x}})= softmax(\boldsymbol{\omega}_c^T\textbf{\textit{x}})$

$softmax(\boldsymbol{\omega}_c^T\textbf{\textit{x}})=\frac{exp(\boldsymbol{\omega}_c^T\textbf{\textit{x}})}{\sum_{c'=1}^C exp(\boldsymbol{\omega}_{c'}^T\textbf{\textit{x}})}$