Deep Learning .ai(吴恩达)学习笔记(一)

研一零基础菜鸟自学笔记,欢迎大佬们批评、建议、指正。

有什么好的学习建议也欢迎评论私信我。

目录

一、Supervised Learning

1.用神经网络进行监督学习的分类:

2.结构化数据和非结构化化数据

二、Binary Classification

1.定义

2.常用符号

3.Logistic Regression

3.1Sigmoid function

3.2logistic回归模型

3.3Cost function

3.3.1Loss(error) function


一、Supervised Learning

1.用神经网络进行监督学习的分类:

InputApplication
Real estate and online advertisingstandard neural network
Image convolutional neural networks(CNN)

sequence data

(audio,language,English,alphabets or words)

recurrent neural network(RNN)
autonomous driving(image,radio)more complex/hybrid neural network architecture

2.结构化数据和非结构化化数据

Structured Data:databases of data.

Unstructured Data:Audio,Image,Text and so on,which has been harder for computers to make sense of unstructured Data.

二、Binary Classification

1.定义

对某个事件或者事物进行“是”或者“否”的判断,即可表示为如“0”和“1”两种数据形式。

例如:1表示cat,0表示non cat。

2.常用符号

来源:深度学习基础知识(四):神经网络基础之二分分类_神经网络二分类_Chou_pijiang的博客-CSDN博客

3.Logistic Regression

3.1Sigmoid function

Sigmoid函数的图像看起来像一个“S”形曲线

公式:f(z)=\frac{1}{1+e^{-z}}

优点:

Sigmoid 函数的输出范围是 0 到 1。由于输出值限定在 0 到 1,因此它对每个神经元的输出进行了归一化;

用于将预测概率作为输出的模型。由于概率的取值范围是 0 到 1,因此 Sigmoid 函数非常合适;

梯度平滑,避免「跳跃」的输出值;

函数是可微的。这意味着可以找到任意两个点的 sigmoid 曲线的斜率;

明确的预测,即非常接近 1 或 0。

缺点:

倾向于梯度消失;

函数输出不是以 0 为中心的,是以0.5为中心,这会降低权重更新的效率;

Sigmoid 函数执行指数运算,计算机运行得较慢。

来源:深度学习领域最常用的10个激活函数,一文详解数学原理及优缺点 | 机器之心

3.2logistic回归模型

parameters(参数):w\in\mathbb{R}^{nx} ,w是一个nx dimensional vector(nx维向量);

                               b\in \mathbb{R}b是一个real number(实数)

Question:

   Given input X and parameters w and b

    Want generate output \hat{y}

    

    Output:\hat{y}=w^{T}x+b,是关于输入函数x的线性函数(make no sense)

  \hat{y}=P\left ( y=1|x \right )\hat{y}是一个probability,当特征x满足条件时,y为1

 我们希望 \hat{y}的范围为(0,1),所以引入Sigmoid函数,即:

\hat{y}=sigmoid\left ( w^{T}x+b \right )

3.3Cost function

为了训练logistic回归模型的参数w和b,我们需要定义一个成本函数。

针对\hat{y}=sigmoid\left ( w^{T}x+b \right )

Given \left \{ \left (x^{\left ( 1 \right )},y^{\left ( 1 \right )} \right ),...,\left (x ^{\left ( m \right )} ,y^{\left ( m \right )}\right ) \right \},

          Want  \hat{y}^{\left ( i \right )}\approx y^{\left ( i \right )}

意思是:给一个m个样本的训练集。想在训练集中找到参数w和b,来得到输出\hat{y},并且希望其接近于训练集中的y^{\left ( i \right )},其中上标i指的是数据中的第i个样本。

3.3.1Loss(error) function

用处:同来衡量算法的运行情况,适合训练单个样本

 assume function:L\left ( \hat{y},y \right )=\frac{1}{2}\left ( \hat{y}-y \right )^{2}

意思是:我们通过定义这个损失函数L(loss function)来衡量你的预测输出值\hat{y}和实际值y有多接近。假定的定义式为误差平方,看似很合理,但梯度下降法对于该式不是特别好用。因此,我们需要定义一个不同的loss function,它有着与误差平方相似的作用,但会给我们一个凸的优化问题,这便于我们做优化。

loss function:

L\left ( \hat{y},y \right )=-\left ( ylog\hat{y}+\left ( 1-y \right )log\left ( 1-\hat{y} \right ) \right )

说明: 

(1)If y=1: L\left ( \hat{y},1\right )=-log\hat{y}

          该式是一个定义域为(0,1),值域为(0,+∞),递减函数。

          真实值为1,当预测值越接近0时,损失函数 L\left ( \hat{y},y \right ) 的值越大,代表损失越大,预测值为0时损失无穷大;

           真实值为1,当预则指越接近1时,损失值 L\left ( \hat{y},y \right ) 的值就越小,代表损失越小,预测值为1时损失为0。

(2)Ify=0: L\left ( \hat{y},0\right )=-log\left ( 1-\hat{y} \right )

        该式是一个定义域为(0,1),值域为(0,+∞),递增函数。

        真实值为0,当预测值越接近0时,损失函数 L\left ( \hat{y},y \right ) 的值越小,代表损失越小,预测值为0时损失为0;

        真实值为0,当预则指越接近1时,损失值 L\left ( \hat{y},y \right ) 的值就越大,代表损失越大,预测值为1时损失无穷大。

3.3.2definition

基于loss function的推导,我们给出了cost function的最终定义:

cost function 衡量的是在全体训练样本上的表现。cost function是基于参数的总成本,因此我们需要寻找合适的parameter w 和 b ,让 J 尽可能地小

cost function

J\left ( w,b \right )=\frac{1}{m}\sum_{i=1}^{m}L\left ( \hat{y}^{\left ( i \right )},y^{\left ( i \right )} \right )=-\frac{1}{m}\sum_{i=1}^{m}\left [ y^{\left ( i \right )} log\hat{y}^{\left ( i \right )}+\left ( 1-y^{\left ( i \right )} \right )log\left ( 1-\hat{y}^{\left ( i \right )} \right )\right ]

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

馥郁x

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值