补充学习:Logistic回归和Softmax回归

学习笔记自用,补充上篇【论文学习】的数学内容

Logistic回归

是一种常用的处理二分类问题的线性模型。为了解决连续的线性函数不适合进行分类的问题,引入非线性函数

g:\mathbb{R}^D\rightarrow (0,1)

来预测类别标签的后验概率p(y=1|x)

p(y=1|\textbf{\textit{x}}) = g(f(\textbf{\textit{x}};\boldsymbol{\omega}))

g(\cdot )通常称为激活函数,把线性函数的值域映射到(0, 1)之间,表示概率,其逆函数g^{-1}(\cdot)被称为连续函数。标签y=1的后验概率为

p(y=1|\textbf{\textit{x}})=\frac{1}{1+exp(-\boldsymbol{\omega}^T\textbf{\textit{x}})}

其中,\textbf{\textit{x}}=[x_1,x_2,...,x_D,1]^T,\boldsymbol{\omega}=[\omega_1,\omega_2,...,\omega_D,b]^T分别为D+1维的增广特征向量和增广权重向量。标签y=0的后验概率为p(y=0|\textbf{\textit{x}})=1-p(y=1|\textbf{\textit{x}})

        Logistic回归采用交叉熵作为损失函数,并且使用梯度下降法来对参数进行优化。给定N个训练样本\{(\textbf{\textit{x}}^{(n)},\boldsymbol{\omega}^{(n)})\}_{n=1}^N,用logistic回归模型对每个样本进行预测,输出其标签为1的后验概率\hat{y}^{(n)}。因为{y}^{(n)}\in \{0,1\},所以样本(\textbf{\textit{x}}^{(n)},\boldsymbol{y}^{(n)})的真实条件概率可以表示为

p_r(y^{(n)}=1|\textbf{\textit{x}}^{(n)})=y^{(n)}

p_r(y^{(n)}=0|\textbf{\textit{x}}^{(n)})=1-y^{(n)}

使用交叉熵损失函数,其风险函数为

\mathfrak{R}(\boldsymbol{\omega })\\=-\frac{1}{N}\sum_{n=1}^N\big(p_r(y^{(n)}=1|\textbf{\textit{x}}^{(n)})log(\hat{y}^{(n)})+p_r(y^{(n)}=0|\textbf{\textit{x}}^{(n)})log(1-\hat{y}^{(n)})\big) \\=-\frac{1}{N}\sum_{n=1}^N\big(y^{(n)}log(\hat{y}^{(n)})+(1-y^{(n)})log(1-\hat{y}^{(n)})\big)

风险函数关于参数\boldsymbol{\omega }的偏导数为:

采用梯度下降方法,Logistic回归的训练过程为:初始化\boldsymbol{\omega}_0\leftarrow 0,然后通过下式来迭代更新参数

\boldsymbol{\omega }_{t+1}=\boldsymbol{\omega }_t+\alpha \frac{1}{N}\sum_{n=1}^N\textbf{\textit{x}}^{(n)}(y^{(n)}-\hat{y}^{(n)}_{\omega _t})\hat{y}^{(n)}_{\omega _t}是参数为\boldsymbol{\omega }_t时,Logistic回归模型的输出。

softmax回归

        也称为多分类的Logistic回归,是Logistic在多分类问题上的推广。对于多分类问题,类别标签y∈(1, 2, 3, ... , C)可以有C个取值。给定一个样本x,Softmax函回归预测得到的属于类别c的条件概率为:

p(y=c|\textbf{\textit{x}})= softmax(\boldsymbol{\omega}_c^T\textbf{\textit{x}})

softmax(\boldsymbol{\omega}_c^T\textbf{\textit{x}})=\frac{exp(\boldsymbol{\omega}_c^T\textbf{\textit{x}})}{\sum_{c'=1}^C exp(\boldsymbol{\omega}_{c'}^T\textbf{\textit{x}})}

\boldsymbol{\omega }_c是第c类的权重向量。Softmax回归的决策函数可以表示为:\hat{y}={argmax}_{c=1}^C\, p(y=c|\textbf{\textit{x}}).

可推断,决策函数\hat{y}={argmax}_{c=1}^C\, \boldsymbol{\omega}_c^T\textbf{\textit{x}}

 

参数学习,采用交叉熵损失函数,计算梯度的公式及推导如下:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值