细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（四）

最新推荐文章于 2022-07-26 18:14:48 发布

芝麻挞

最新推荐文章于 2022-07-26 18:14:48 发布

阅读量230

点赞数

文章标签：机器学习逻辑回归概率论算法数据挖掘

本文链接：https://blog.csdn.net/weixin_43928665/article/details/106817285

版权

第四节：神奇的吻合 —— 逻辑斯蒂回归的损失函数

1. Logistic Loss —— Negative sum of log accuracy

假设预测对得1分，否则0分，label $\in$ {1, -1}

那么，对于第i条训练数据，若真实 label = 1，得1分的概率为 $\frac{1}{1+exp(-\vec{w}^T\vec{x_i})}$

若真实 label = -1，得1分的概率为 $\frac{exp(-\vec{w}^T\vec{x_i})}{1+exp(-\vec{w}^T\vec{x_i})} = \frac{1}{1+exp(\vec{w}^T\vec{x_i})}$

把这两种情况综合一下，得1分的概率为 P(accurate) = $\frac{1}{1+exp(-\color{red}y_i\color{black}\vec{w}^T\vec{x_i})}$

$Negative\ sum\ of\ log\ accuracy$
$\quad\quad\ =-\displaystyle\sum^{n}_{i=1}log(P(accurate))$
$\quad\quad\ =-\displaystyle\sum^{n}_{i=1}log(\frac{1}{1+exp(-y_i\vec{w}^T\vec{x_i})})$
$\quad\quad\ =\displaystyle\sum^{n}_{i=1}log[\ 1+exp(-y_i\vec{w}^T\vec{x_i})\ ]$

n 是 batch_size

如果我们用SGD（stochastic gradient descent）的话，n = 1。对 Loss 求关于 $\vec w$ 的导数：

$\frac{\partial{Loss}}{\partial{\vec w}} = \frac{exp(-y_i\vec{w}^T\vec{x_i}) (-y_i\vec{x_i})}{1+exp(-y_i\vec{w}^T\vec{x_i})}$

$\quad\quad\quad\ \ =(-y_i\vec{x_i})P(not\ accurate)$

还记得梯度下降的权重更新方法吗？ $\Rightarrow\ \ \vec w = \vec w-\alpha d$

其中， $\alpha$ 是 learning rate， $d$ 是gradient，也就是刚才算的 $(-y_i\vec{x_i})P(not\ accurate)$

权重更新： $\ \vec w = \vec w-\alpha P(not\ accurate)y_i\vec{x_i}$

一般情况下，logistic loss 的公式为 $\color{#FF7256}L(y, f(x))=log[\ 1+exp(-yf(x))\ ]$ 。也就是说，在logistic regression 中， $f(x)=\vec w^T\vec x$

最低0.47元/天解锁文章

芝麻挞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（四）

第四节：神奇的吻合 —— 逻辑斯蒂回归的损失函数1. Logistic Loss —— Negative sum of log accuracy假设预测对得1分，否则0分，label ∈\in∈ {1, -1}那么，对于第i条训练数据，若真实 label = 1，得1分的概率为 11+exp(−w⃗Txi⃗)\frac{1}{1+exp(-\vec{w}^T\vec{x_i})}1+exp(−wTxi)1 若真实 label = -1，得1分的概率为 exp(−w⃗Txi⃗)1+exp(−
复制链接

扫一扫