《Neural Networks and Deep Learning》第二周学习笔记-逻辑回归

紧慢

已于 2022-03-19 11:53:42 修改

阅读量746

点赞数

文章标签：深度学习

于 2022-03-19 11:49:21 首次发布

本文链接：https://blog.csdn.net/zhao_jm/article/details/123232074

版权

本文回顾了逻辑回归在神经网络中的应用，讲解了如何避免for循环，转向使用矩阵运算，以及如何利用计算图和梯度下降进行参数优化。重点介绍了基于计算图的导数和逻辑回归梯度下降实例，展示了如何通过矢量化提升大规模样本处理的效率。

摘要由CSDN通过智能技术生成

《Neural Networks and Deep Learning》第二周学习笔记

这节课复习神经网络编程基本知识，以逻辑回归算法为例，训练数据时不会采用for循环方法

逻辑回归

1. 二进制分类

图片二元分类问题-可爱的小猫，1=猫，0不是猫，首先介绍图片识别的数据格式，图片被分为红、绿和蓝三个通道，假定每个通道的像素点为64*64，将矩阵中的像素值展开为向量 $x$ 作为算法输入，定义一个数据输入格式
一个通道 $x$ 的输入
$\begin{matrix} x_1\\ ... \\ x_{n}\\ \end{matrix}$ 此时输入向量的维度 $n_x=64*64*3=12288$

神经网络的输入格式：
单个样本表示为 $(x, y)$ ， $x\in{R^{n_x}}，y\in{{0,1}}$
$m$ 个训练数据, $n$ 维,样本可表示为 $x^{(1)},Y^{(1)}),(x^{(2)},Y^{(2)})...,(x^{(m)},Y^{(m)})$
将x^1放入第一列，同时有 $n_x$ 行
x输入格式为
$\begin{matrix} x_{11} & ... & x_{1m} \\ ... & ... &...\\ x_{n1} & ... & x_{nm} \\ \end{matrix}$
python中输出X.shape= $n_x,m）$ ，Y.shape= $(1, m)$

2. 逻辑回归

模型输出的是输入x对应的类别的概率
线性回归中输出与参数 $\omega$ 和 $b$ 有关
$\hat y=\omega^Tx+b$
为了使概率有意义，对方程使用sigmoid，使其范围在（0，1）内
$\hat y=sigmoid(\omega^Tx+b)$
为了方便矩阵表示，部分研究中定义 $x_0=1,\hat y =\theta^Tx$

3. 逻辑回归成本函数

利用损失函数查找参数
这部分介绍了两个概念：
损失函数:针对单个样本而言，描述每个样本预测值与真实值的差距，有多种描述方式： $\mathcal{L}(\hat y,y)$
通常表示为： $\mathcal{L}(\hat y,y)=-(ylog(a)+(1-y)log(1-a))$
代价函数：针对样本集，描述整体预测值与标签的差距，通常取其均值
$J(\omega,b)={1\over m}\sum_{i=1}^m \mathcal{L}(\hat y,y)$

4. 梯度下降

模型更优秀 == 预测值与真实值更接近 == 损失函数更小 == 寻找最优参数 $\omega$ 和 $b$
梯度下降：利用微分方程计算极值的方法，假设数据为凸数据，通过导数可以确定最佳前进方向，数据每次会如下更新
$\omega：\omega-\alpha {dJ(\omega,b)\over d\omega}$
$b：b-\alpha {dJ(\omega,b) \over db}$

5. 导数

以 $y = x$ 函数为例，介绍导数：即 ${\Delta y\over \Delta x}$ ，因变量增量与自变量增量的比值

6. 偏微分实例

以 $y=x^2$ 为例，介绍 $x$ 不同时，导数不同的函数

7. 计算图

以 $J (a, b, c) = 3 v = 3 (a + u) = 3 (a + b c)$ 为例，直观的展示前向传播和反向传播流程：
前
$u = b c - > v = a + u - > J = 3 v$

8. 基于计算图的导数

基于链式法则的反向传播
$\over da}={dJ \over dv}*{dv\over da}$
$\over db}={dJ \over dv}*{dv\over du}*{dv \over db}$
$\over dc}={dJ \over dv}*{dv\over du}*{dv \over dc}$

9. 逻辑回归梯度下降

逻辑回归方程为：
$z=\omega^T x+b$
$\hat y=a=\sigma(z)$
$\mathcal{L}(a,y)=-(ylog(a)+(1-y)log(1-a))$
逻辑回归导数为：
求最小 $\mathcal{L}(a,y)$ ，通过链式法则计算最小的 $\omega^T 、b$

10. 梯度下降实例

针对单个样本，需要双重循环：
for 样本从 $1 . . . m$ ：
for所有特征 $x_1、x_2$ :
$z^{(i)} =\omega^Tx^{(i)} +b$
$a^{(i)}=\sigma(z^{(i)})$
$\mathcal{L}(a^{(i)},y^{(i)})=-(y^{(i)}log(a^{(i)})+(1-y^{(i)})log(1-a^{(i)}))$
$dz^{(i)}=a^{(i)}-y^{(i)}$
$d\omega_1^{(i)}+=x_1^{(i)}dz{(i)}$
$d\omega_2^{(i)}+=x_2^{(i)}dz{(i)}$
$db+=dz^{(i)}$
问题：大量样本需要大量的计算力，矢量化可以提高效率，减少甚至避免循环时间。