Deep Learning .ai（吴恩达）学习笔记（一）

馥郁x

已于 2023-10-21 13:45:31 修改

阅读量152

点赞数 3

分类专栏：深度学习文章标签：人工智能深度学习学习

于 2023-10-17 20:35:47 首次发布

本文链接：https://blog.csdn.net/weixin_51481075/article/details/133885866

版权

深度学习专栏收录该内容

1 篇文章 1 订阅

订阅专栏

研一零基础菜鸟自学笔记，欢迎大佬们批评、建议、指正。

有什么好的学习建议也欢迎评论私信我。

一、Supervised Learning

1.用神经网络进行监督学习的分类:

2.结构化数据和非结构化化数据

二、Binary Classification

1.定义

2.常用符号

3.Logistic Regression

3.1Sigmoid function

3.2logistic回归模型

3.3Cost function

3.3.1Loss(error) function

一、Supervised Learning

1.用神经网络进行监督学习的分类:

Input	Application
Real estate and online advertising	standard neural network
Image	convolutional neural networks(CNN)
sequence data (audio,language,English,alphabets or words)	recurrent neural network(RNN)
autonomous driving(image,radio)	more complex/hybrid neural network architecture

2.结构化数据和非结构化化数据

Structured Data:databases of data.

Unstructured Data:Audio,Image,Text and so on,which has been harder for computers to make sense of unstructured Data.

二、Binary Classification

1.定义

对某个事件或者事物进行“是”或者“否”的判断，即可表示为如“0”和“1”两种数据形式。

例如：1表示cat，0表示non cat。

2.常用符号

来源：深度学习基础知识（四）：神经网络基础之二分分类_神经网络二分类_Chou_pijiang的博客-CSDN博客

3.Logistic Regression

3.1Sigmoid function

Sigmoid函数的图像看起来像一个“S”形曲线

公式： $f(z)=\frac{1}{1+e^{-z}}$

优点：

Sigmoid 函数的输出范围是 0 到 1。由于输出值限定在 0 到 1，因此它对每个神经元的输出进行了归一化；

用于将预测概率作为输出的模型。由于概率的取值范围是 0 到 1，因此 Sigmoid 函数非常合适；

梯度平滑，避免「跳跃」的输出值；

函数是可微的。这意味着可以找到任意两个点的 sigmoid 曲线的斜率；

明确的预测，即非常接近 1 或 0。

缺点：

倾向于梯度消失；

函数输出不是以 0 为中心的，是以0.5为中心，这会降低权重更新的效率；

Sigmoid 函数执行指数运算，计算机运行得较慢。

来源：深度学习领域最常用的10个激活函数，一文详解数学原理及优缺点 | 机器之心

3.2logistic回归模型

parameters(参数)： $w\in\mathbb{R}^{nx}$ ， $w$ 是一个nx dimensional vector（nx维向量）；

$b\in \mathbb{R}$ ， $b$ 是一个real number（实数）

Question:

Given input $X$ and parameters $w$ and $b$

Want generate output $\hat{y}$

~~Output: $\hat{y}=w^{T}x+b$ ，是关于输入函数x的线性函数~~（make no sense）

$\hat{y}=P\left ( y=1|x \right )$ ， $\hat{y}$ 是一个probability，当特征x满足条件时，y为1

我们希望 $\hat{y}$ 的范围为（0，1），所以引入Sigmoid函数，即：

$\hat{y}=sigmoid\left ( w^{T}x+b \right )$

3.3Cost function

为了训练logistic回归模型的参数w和b，我们需要定义一个成本函数。

针对 $\hat{y}=sigmoid\left ( w^{T}x+b \right )$ ：

Given $\left \{ \left (x^{\left ( 1 \right )},y^{\left ( 1 \right )} \right ),...,\left (x ^{\left ( m \right )} ,y^{\left ( m \right )}\right ) \right \}$ ,

Want $\hat{y}^{\left ( i \right )}\approx y^{\left ( i \right )}$

意思是：给一个m个样本的训练集。想在训练集中找到参数w和b，来得到输出 $\hat{y}$ ，并且希望其接近于训练集中的 $y^{\left ( i \right )}$ ，其中上标i指的是数据中的第i个样本。

3.3.1Loss(error) function

用处：同来衡量算法的运行情况，适合训练单个样本

assume function： $L\left ( \hat{y},y \right )=\frac{1}{2}\left ( \hat{y}-y \right )^{2}$

意思是：我们通过定义这个损失函数L(loss function)来衡量你的预测输出值 $\hat{y}$ 和实际值 $y$ 有多接近。假定的定义式为误差平方，看似很合理，但梯度下降法对于该式不是特别好用。因此，我们需要定义一个不同的loss function，它有着与误差平方相似的作用，但会给我们一个凸的优化问题，这便于我们做优化。

loss function:

$L\left ( \hat{y},y \right )=-\left ( ylog\hat{y}+\left ( 1-y \right )log\left ( 1-\hat{y} \right ) \right )$

说明：

（1）If y=1: $L\left ( \hat{y},1\right )=-log\hat{y}$

该式是一个定义域为（0，1），值域为（0，+∞），递减函数。

真实值为1，当预测值越接近0时，损失函数 $L\left ( \hat{y},y \right )$ 的值越大，代表损失越大，预测值为0时损失无穷大；

真实值为1，当预则指越接近1时，损失值 $L\left ( \hat{y},y \right )$ 的值就越小，代表损失越小，预测值为1时损失为0。

（2）Ify=0: $L\left ( \hat{y},0\right )=-log\left ( 1-\hat{y} \right )$

该式是一个定义域为（0，1），值域为（0，+∞），递增函数。

真实值为0，当预测值越接近0时，损失函数 $L\left ( \hat{y},y \right )$ 的值越小，代表损失越小，预测值为0时损失为0；

真实值为0，当预则指越接近1时，损失值 $L\left ( \hat{y},y \right )$ 的值就越大，代表损失越大，预测值为1时损失无穷大。

3.3.2definition

基于loss function的推导，我们给出了cost function的最终定义：

cost function 衡量的是在全体训练样本上的表现。cost function是基于参数的总成本，因此我们需要寻找合适的parameter $w$ 和 $b$ ，让 $J$ 尽可能地小

cost function：

$J\left ( w,b \right )=\frac{1}{m}\sum_{i=1}^{m}L\left ( \hat{y}^{\left ( i \right )},y^{\left ( i \right )} \right )=-\frac{1}{m}\sum_{i=1}^{m}\left [ y^{\left ( i \right )} log\hat{y}^{\left ( i \right )}+\left ( 1-y^{\left ( i \right )} \right )log\left ( 1-\hat{y}^{\left ( i \right )} \right )\right ]$