深度学习Deep learning小白入门笔记——李宏毅深度学习逻辑回归笔记

孤光一点萤❂

于 2023-07-11 15:58:41 发布

阅读量205

点赞数

分类专栏： DeepLearning 文章标签：深度学习笔记逻辑回归

本文链接：https://blog.csdn.net/weixin_45698813/article/details/131662355

版权

DeepLearning 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Deep Learning 2023/07/11

Logistic Regression

Step 1: Function Set

需要确定一个概率，因为逻辑回归是一种用于解决二分类问题的机器学习算法。由此可得如下定义：

$\ \ P_{w,b}(C_1|x)\geq 0.5 ,output \ C_1 \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Otherwise,output \ C_2$

使用Gaussian函数得到如下内容

$P_{w,b}(C_1|x)=\sigma(z)\\ z=w·x+b=\sum_iw_ix_i+b$

综上得出Function set如下：

$f_{w,b}=P_{w,b}(C_1|x)$

$\Rightarrow f_{w,b}(x)=\sigma(\sum_iw_ix_i+b)$

Step2: Goodness of a Function

假设一组训练集由上述Function Set产生即满足：

$f_{w,b}(x) = P_{w,b}(C_1|x)$

通过等式可以获悉通过一组(w,b)，就可以确认对于一组数据的P，故可得：

$L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3)) ···f_{w,b}(x^N)$

将计算出来最符合L(w,b)的一组(w,b)叫做(w^*,b*),即

$w^*,b^*=arg\max_{w,b} L(w,b)$

将上述求解*L(w,b)*转换如下

$w^*,b^*=arg\min_{w,b}-lnL(w,b)$

公式*L(w,b)*推导如下：

$L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3)) ···f_{w,b}(x^N) \\ \Rightarrow -lnL(w,b)=lnf_{w,b}(x^1)lnf_{w,b}(x^2)ln(1-f_{w,b}(x^3)) ···lnf_{w,b}(x^N) \\ \hat{y}^n:1 \ for \ class \ 1, \ 0 \ for class \ 2 \\ \Rightarrow = \sum_n-[\hat{y}^nlnf_{w,b}(x^n)+(1-\hat{y}^n)ln(1-f_{w,b}(x^n))]$

$\ p:p(x = 1)=\hat{y}^n \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ p(x = 0)=1-\hat{y}^n$

$Distribution \ q: q(x=1)=f(x^n) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ q(x=0)=1-f(x^n)$

通过上述两个定义式计算cross entropy, 即将两式带入下式中：

$H(p,q)=-\sum_xp(x)ln(q(x))$

Cross entropy:

$C(f(x^n),\hat{y}^n)=-[\hat{y}^nlnf(x^n)+(1-\hat{y}^n)ln(1-f(x^n))]$

Step 3: Find the best function

$-lnL(w,b)=\sum_n-[\hat{y}^nlnf_{w,b}(x^n)+(1-\hat{y}^n)ln(1-f_{w,b}(x^n))] \\ \Rightarrow \frac{\partial lnL(w,b)}{\partial w_i} = \frac{\partial lnf_{w,b}(x)}{\partial z}\frac{\partial z}{\partial w_i}$

$\Rightarrow \frac{\partial z}{\partial w_i}=x_i$

$\Rightarrow \frac{\partial ln\sigma(z)}{\partial z}=\frac{1}{\sigma(z)}\frac{\partial \sigma(z)}{\partial z}=\frac{1}{\sigma(z)}\sigma(z)(1-\sigma(z))=1-\sigma(z)$

$\Rightarrow \frac{\partial ln(1-f_{w,b}(x))}{\partial w_i}=\frac{\partial ln(1-f_{w,b}(x))}{\partial z}\frac{\partial z}{\partial w_i}$

$\Rightarrow \frac{\partial ln(1-\sigma(z))}{\partial z}=-\frac{1}{1-\sigma(z)}\frac{\partial \sigma(z)}{\partial z}=-\frac{1}{1-\sigma(z)}\sigma(z)(1-\sigma(z))=-\sigma(z)$

$\frac{-lnL(w,b)}{\partial w_i}=\sum_n-[\hat{y}^n(1-f_{w,b}(x^n))x_i^n-(1-\hat{y}^n)f_{w,b}(x^n)x_i^n] \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sum_n-[\hat{y}^n-\hat{y}^nf_{w,b}{x^n}-f_{w,b}(x^n)+\hat{y}^nf_{w,b}(x^n)]x_i^n \\ =\sum_n-(\hat{y}^n-f_{w,b}(x^n))x_i^n \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \$

由此可推导出参数更新公式，如下：

$w_i \leftarrow w_i-\eta\sum_n-(\hat{y}^n-f_{w,b}(x^n))x_i^n$

由上式可知参数更新取决于三个因素
- 即 learning rate η
- 取决于数据集的 x
- 以及预测值与真实值之间的差值
  $\hat{y}^n-f_{w,b}(x^n)$
根据上述分析可以得知Logistic regression和Linear regression的梯度下降方程一致，不同的是两者方程中的预测值与真实值的取值范围不同。Logistic regression中两者的取值为0或1，而Linear regression中两者的取值则为全体实数。

孤光一点萤❂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习Deep learning小白入门笔记——李宏毅深度学习逻辑回归笔记

if Pw,b(C1∣x)≥0.5,output C1 Otherwise,output C2if \ \ P_{w,b}(C_1|x)\geq 0.5 ,output \ C_1 \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Otherwise,output \ C_2if Pw,b(C1∣x)≥0.5,output C1 Otherwise,output C2Pw,b(C1∣x)=σ(z)z=w⋅x+b=∑iw
复制链接

扫一扫