COURSERA:逻辑回归和梯度下降

最新推荐文章于 2023-04-01 15:10:52 发布

张传鑫

最新推荐文章于 2023-04-01 15:10:52 发布

阅读量74

点赞数

分类专栏： COURSERA 算法

本文链接：https://blog.csdn.net/z630832564/article/details/105085956

版权

算法同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

COURSERA

1 篇文章 0 订阅

订阅专栏

原文链接: COURSERA:逻辑回归和梯度下降.

COURSERA:逻辑回归和梯度下降

logistic regression相当于是神经网络中的一个神经元，在记录之前先约定一些符号
$x^{(i)}指第i个样本本$

$x_j^{(i)}指第i个样本的第j个特征值$

$z^{(i)}指的是第i个样本经过线性变换后的特征向量$

$a^{(i)}指的是第i个样本经过激活函数后的值$

整个算法的结构如下图所示：

在这里插入图片描述

假如我们的训练向量是一幅图，首先将三维RGB（或者其他格式）展开为一维列向量，记为 $X^{(i)}$ ,经过标准化处理将数据缩放到[0,1]的范围内，对于每一个 $x^{(i)}$ :
$z^{(i)} = w^T x^{(i)} + b \tag{1}$

$\hat{y}^{(i)} = a^{(i)} = sigmoid(z^{(i)})\tag{2}$

$\mathcal{L}(a^{(i)}, y^{(i)}) = - y^{(i)} \log(a^{(i)}) - (1-y^{(i)} ) \log(1-a^{(i)})\tag{3}$

$\mathcal{L}(a^{(i)}, y^{(i)})$ 是损失函数，直观的来看这个函数，举例：

–当模型比较好时，当正确结果为正例时， $y^{(i)}$ 为1，此时 $1-y^{(i)} ) \log(1-a^{(i)})$ 是0， $a^{(i)}$ 会很接近1， $y^{(i)} \log(a^{(i)})$ 就接近0， $\mathcal{L}$ 就小。负例同理。
–当模型比较差时，当正确结果为正例时， $y^{(i)}$ 为1，此时 $1-y^{(i)} ) \log(1-a^{(i)})$ 是0， $a^{(i)}$ 会比1小很多， $y^{(i)} \log(a^{(i)})$ 的值就会比较大， $\mathcal{L}$ 就小。负例同理。

梯度下降

在对所有的训练样例都进行了一次上述公式1-3的过程后（称之为1个echo），就需要对权值 $w$ 和偏倚 $b$ 进行优化，优化的依据就是最小化损失函数。

对所有的训练样例，损失函数：
$\frac{1}{m} \sum_{i=1}^m \mathcal{L}(a^{(i)}, y^{(i)})\tag{4}$
梯度下降的具体步骤为：

1.计算损失函数对所有参数的导数，计算出梯度（需要下降多少）

2.在原来的基础上减去梯度

符号说明：
$d w : J 对 w 的梯度$

$d b : J 对 b 的梯度$

具体做法(单个样本)：
$w_1x_1+w_2x_2 + b \quad → \quad a=σ(z) \quad → \quad \mathcal{L} = - y \log(a )- (1-y ) \log(1-a)$
那么
$\frac{d\mathcal{L}}{da}=-\frac{y}{a}+\frac{1-y}{1-a}$

$\frac{\partial \mathcal{L}}{\partial z} = \frac{d\mathcal{L}}{da}\frac{da}{dz}=a-y$

由于：
$\frac{\partial \mathcal{L}}{\partial w1} = \frac{\partial \mathcal{L}}{\partial z}\frac{\partial z}{\partial w1}=\frac{\partial \mathcal{L}}{\partial z}*x_1=(a-y)*x_1$

$\frac{\partial \mathcal{L}}{\partial w2} = \frac{\partial \mathcal{L}}{\partial z}\frac{\partial z}{\partial w2}=\frac{\partial \mathcal{L}}{\partial z}*x_2=(a-y)*x_2$

那么：
$\frac{\partial \mathcal{L}}{\partial w} = \frac{\partial \mathcal{L}}{\partial z}\frac{\partial z}{\partial w}=\frac{\partial \mathcal{L}}{\partial z}*x=x(a-y)$

$\frac{\partial \mathcal{L}}{\partial b} = \frac{\partial \mathcal{L}}{\partial z}\frac{\partial z}{\partial b}=\frac{\partial \mathcal{L}}{\partial z}*1= a-y$
对于 $m$ 个样本：

将 $m$ 个样本的 $\mathcal{L}$ 、 $\frac{d\mathcal{L}}{dw}$ 和 $\frac{d\mathcal{L}}{db}$ 叠加得到 $J$ 、 $\frac{dJ}{dw}$ 和 $\frac{dJ}{db}$ :
$\mathcal{J} = \frac{1}{m} J$

$\frac{\partial \mathcal{J}}{\partial w} = \frac{1}{m} \frac{\partial J}{\partial w}$

$\frac{\partial \mathcal{J}}{\partial b} = \frac{1}{m} \frac{\partial J}{\partial b}$

最后进行权值更新：
$α\frac{\partial \mathcal{J}}{\partial w} \tag{5}$

$α\frac{\partial \mathcal{J}}{\partial b} \tag{6}$

将计算向量化

在上面的过程中，我们注意到对于多个训练样例，一个echo就会有多个循环：

for sample in samples:  #对每个样本遍历
    for i in sample:  #对样本每个参数

for循环所花费的时间是比矩阵运算多很多，所以要运用python的广播机制和numpy运算将for循环转换为矩阵运算。

转换过程的最关键的点就是横向量和列向量的转换，要把对的元素对应起来，现在来规范一下向量格式。

训练数据 $X_{n\__y*m}$ :
$KaTeX parse error: Undefined control sequence: \ at position 35: …trix} .&.&.&.\\\̲ ̲.&.&.&.\\\ x^{(…$
权重 $w$ :
$w=\left[ \begin{matrix}w_1\\w_2\\...\\w_{n\__y} \end{matrix}\right]$

$b=\left[ b \right]广播后b=\left[ b_1,b_2,...b_m \right]$

那么:
$A=σ(w^TX+b)=\left[ a^{(1)},a^{(2)},...,a^{(m)} \right]$
最后的梯度：
$\frac{\partial \mathcal{J}}{\partial w} = \frac{1}{m}X(A-Y)^T\tag{7}$

$\frac{\partial \mathcal{J}}{\partial b} = \frac{1}{m} \sum_{i=1}^m (a^{(i)}-y^{(i)})\tag{8}$

最后按照公式5、6进行权值更新。

{J}}{\partial w} = \frac{1}{m}X(A-Y)^T\tag{7}
$$

$\frac{\partial \mathcal{J}}{\partial b} = \frac{1}{m} \sum_{i=1}^m (a^{(i)}-y^{(i)})\tag{8}$

最后按照公式5、6进行权值更新。

张传鑫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
COURSERA:逻辑回归和梯度下降

原文链接: COURSERA:逻辑回归和梯度下降.logistic regressionlogistic regression相当于是神经网络中的一个神经元，在记录之前先约定一些符号x(i)指第i个样本本x^{(i)}指第i个样本本x(i)指第i个样本本xj(i)指第i个样本的第j个特征值x_j^{(i)}指第i个样本的第j个特征值xj(i)指第i个样本的第j个特征值z(i)指...
复制链接

扫一扫

专栏目录