2.2 Logistic 回归-深度学习-Stanford吴恩达教授

最新推荐文章于 2024-08-10 19:08:37 发布

ygl_9913

最新推荐文章于 2024-08-10 19:08:37 发布

阅读量153

点赞数

分类专栏： # 第一课《神经网络和深度学习》-吴恩达老师笔记文章标签：回归深度学习逻辑回归

本文链接：https://blog.csdn.net/ygl_9913/article/details/128889948

版权

第一课《神经网络和深度学习》-吴恩达老师笔记专栏收录该内容

24 篇文章 7 订阅

订阅专栏

在这个视频中，我们会重温逻辑回归学习算法，使用这种学习算法会得到输出标签 $y$ ， $y$ 在监督学习问题中全是0 或者 1。因此这是一种针对二分类问题的算法。

给定的输入特征向量 $x$ ，它可能对应一张图片，你想识别这张图片识别看它是否是一只猫的图片，因此想要一个算法能够输出预测值 $y\hat{}$ （称之为y帽，即y hat）。也就是你对实际值 $y$ 的估计。更正式地来说， $y\hat{}$ 是当给定输入特征 $x$ 时预测 $y$ 为 1 的概率。（换种说法就是，当 $x$ 时一张图片的时候，你想要 $y\hat{}$ 告诉你这是一张猫图的概率。）在之前的视频中所说的， $x$ 是一个 $n_{x}$ 维向量（即 $x\in R^{n_{x}}$ ）。规定回归逻辑参数为 $w$ ， $w$ 也是一个 $n_{x}$ 维向量（即 $w\in R^{n_{x}}$ ）。另外参数里面还有 $b$ ，这是个实数（即 $b \in R$ ）。

因此给定一个输入 $x$ 以及参数 $w$ 和 $b$ ，那么如何产生输出 $y\hat{}$ 呢？有一种方法可以试试，尽管可能不怎么有用，就是让 $y\hat{} = w^{T} \cdot x +b$ ，我们得到一个输入 $x$ 的线性函数。

在这里插入图片描述

事实上，如果使用线性回归，就是这样操作的。但是这对于二分类而言不是一个好的算法。因为你希望 $y\hat{}$ 能够输出 $y$ 为1 的概率。因此 $y\hat{}$ 的值应该在0 和 1 之间。而刚刚那种算法很难实现这种需求，因为 $y\hat{} = w^{T} \cdot x +b$ 可能会比 1 大，甚至可能是个负数。这对于概率就是去意义了。所以，让逻辑回归中 $y\hat{}$ 等于对 $w^{T} \cdot x +b$ 这个值用sigmoid函数的结果。（即，目前是给出一个线性函数，但是其值可能比 1 大，或者是负数，而为了使结果概率在0~1之间，就用sigmoid函数把线性函数的值压缩在0~1之间。）

下图是sigmoid函数的图像，如果我把水平轴作为 $z$ 轴，那么关于 $z$ 轴的sigmoid函数是这样的，它是平滑地从0走向1，这就是关于的sigmoid（ $z$ ）函数的图像。我们通常都使用 $z$ 来表示 $w^{T} \cdot x +b$ 的值。

在这里插入图片描述

关于sigmoid函数的公式是这样的， $\sigma (z) = \frac{1}{1+e^{-z}}$ ，在这里 $z$ 是一个实数。请注意：如果 $z$ 非常大， $e^{(-z)}$ 就会接近于 0，此时 $\sigma (z) \approx 1$ 。相反的，如果 $z$ 非常小，小到甚至是负数，那么 $\sigma (z) \approx 0$ 。

因此当你实现逻辑回归时，你的目标就是去让机器学习参数 $w$ 和 $b$ ，这样才使得 $y \hat{}$ 很好地估计 $y$ 等于 1 的概率。

在继续进行下一步之前，还有一点需要强调，当进行神经网络编程时，我们通常会将参数 $w$ 和 $b$ 分开看待。这里的 $b$ 对应一个偏置值。在一些的机器学习课程里，可能也会看到其他符号去用不用的方式处理参数。在某些课程中，会定义 $x_{0} = 1$ ，因此 $x$ 的维度就变成了 $n_{(x+1)}$ ，(即 $x \in{R^{n_{x+1}}}$ )，之后继续定义 $y \hat{} = \sigma{(\Theta^{T}\cdot x) }$ ，（即，sigmoid函数）。在这种情况下，会有一个向量参数 $\Theta = [\Theta_{0},\Theta_{0},\Theta_{2},...,\Theta_{n_{x}}]^{T}$ ，其中 $\Theta _{0}$ 代替了参数 $b$ ，而 $\Theta _{1},...,\Theta _{n_{x}}$ 是代替了参数 $w$ 。事实上，当你在实现神经网络时，把 $b$ 和 $w$ 当作相互独立的参数会更简单。所以在这门课程中，我们不会用第二种符号方法去表达（不同的课程教程，里面简化的方式不一样）。