斯坦福深度学习CS230课程cheatsheet学后总结笔记（2）

最新推荐文章于 2020-08-19 10:18:02 发布

Marshal Zheng

最新推荐文章于 2020-08-19 10:18:02 发布

阅读量377

点赞数

分类专栏：深度学习机器学习-深度学习-从分析到实践文章标签：深度学习斯坦福大学笔记 cheatsheet

本文链接：https://blog.csdn.net/zysps1/article/details/89279722

版权

机器学习-深度学习-从分析到实践同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

深度学习

5 篇文章 0 订阅

订阅专栏

斯坦福深度学习CS230课程cheatsheet学后总结笔记（2）

Marshal Zheng 2019-04-13

FACE VERIFICATION AND RECOGNITION

模型类别-两种主要模型

人脸验证
人脸识别

One Shot learning

人脸验证算法，学习一个简单函数，其可以量化两张图像的而不同，常表示为 $d (i m a 1, i m a 2)$

Siamese Network

编码图像然后量化两张图像的不同，给定输入 $x^{(i)}$ ，输出 $f(x^{(i)})$

Triplet(三个一组) loss

计算图像A（锚），P（positive），N（negative）三个一组的嵌入表示，锚和positive example属于同一类，negative example属于另一类。 $\alpha \in \mathbb{R^+}$ 为参数容限，损失定义如下：
$\ell(A,P,N) = max(d(A,P)-d(A,N)+\alpha,0)$

Neural style transfer

目的

将主图像C通过一个给定的风格S变换成生成图像G（类似于加滤镜？）

激活值

第 $l$ 层，激活值为 $a^{[l]}$ ，通常维度为 $n_H \times n_w \times n_c$

Content cost function

用来定义生成图像G与原始图像C的不同，如下：
$J_{content}(C,G) = \frac{1}{2}\|a^{[l](C)}-a^{[l](G)}\|^2$

Style matrix

量化通道k和通道k‘的相关性，定义如下：
$G^{[l]}_{kk'} = \sum_{i=1}^{n^{[l]}_H} \sum_{j=1}^{n^{[l]}_w}a^{[l]}_{ijk}a^{[l]}_{ijk'}$
有分别对应S和G的风格矩阵

Overall cost function

以上两个损失函数的结合，权重系数 $\alpha,\beta$ ，如下：
$\alpha J_{content}(C,G)+\beta J_{style}(S,G)$

Architecture using computational tricks

生成式对抗网络

GANs，由一个生成模型和一个鉴别模型组成，生成模型目的在于生成最可信的输出，然后将其送到鉴别模型中区分处生成的图像和真实图像。

Resnet

residual network

使用大量层和剩余blocks减少训练误差，特征方程：
$a^{[l+2]} = g(a^{[l]}+z^{[l+2]})$

Inception Network

尝试不同的卷积层以提升性能。特殊地，使用 $\times 1$ 的卷积来降低计算复杂度

Recurrent(周期性的) Neural Network

传统RNN的架构

允许之前的输出继续作为输入

优点：

可处理任何输入长度
模型大小不随输入大小变化
计算考虑
权值共享

缺点：

计算变慢
难以获得很长时间之前的信息
不能在当前状态下考虑未来的输入

RNN的应用

自然语言处理，语音识别，各种应用类别（输入-to-输出）如下

type of RNN	Example
one-to-one	传统神经网络
one-to-many	音乐生成
many-to-one	情感分类
many-to-many	实体名字识别
many-to-many	机器翻译

Loss function

$\ell(\hat{y},y) = \sum_{t=1}^{T_y} \ell(\hat{y}^{<t>},y^{<t>})$

Backpropagation through time

权重矩阵W
$\frac{\partial \ell^{T}}{\partial W} = \sum_{t=1}^{T}\frac{\partial \ell^{T}}{\partial W} \vert_{(t)}$

Handing long term dependencies

常用激活函数

Sigmoid
Tanh
ReLU

VANISHING/EXPLODING GRADIENT

通常在RNN中遇到。原因：difficult to capture long term dependencies – 连乘的梯度可能指数下降或者上升（考虑层数）

Gradient cliping

解决梯度爆炸问题的一种技术，设定梯度最大值。

Types of gates

抑制梯度变为0的问题，使用specific gates：
$\Gamma = \sigma(Wx^{<t>}+Ua^{<t-1>}+b)$
其中 $W, U, b$ 是gate的系数， $\sigma$ 是sigmoid函数

主要的几种gate类型

update gate – GRU,LSTM
relevance gate – GRU,LSTM
forget gate – LSTM
output gate – LSTM

GRU/LSTM

gated recurrent unit

long short-term memory units

都是用来解决梯度消失问题。

LSTM是GRU的生成器

RNN变体

Bidirectional
Deep

LEARNING WORD REPRESENTATION

REPRESENTATION TECHNIQUES

两种主要表示方法：

1-hot representation
word embedding

embedding matrix(E)

将word w 从1-hot representation ( $o_w$ )映射到embedding( $e_w$ )
$e_w = E_{o_w}$

word embedding

word2vec

框架-目的在通过估计给定word是否被其他word包围的可能性来学习word embedding，流行的模型包括skip-gram,negative sampling和CBOW

skip-gram

监督性学习任务——评估目标word在给定本文word出现的可能性，指定t的一个参数 $\theta_t$ ,，概率为：
$\frac{e^{\theta_t^Te_c}}{\sum_{j=1}^{|V|}e^{\theta_j^Te_c}}$
remark：分母的求和过程使得此模型计算开销很大

negative sampling

二进制分类器（使用logistics regression）k个negative和1个positive example

文本c，目标单词t
$\sigma(\theta_t^Te_c)$
GloVe

word embedding 技术

$X_{i,j}$ 表示目标i在文本j中出现的次数
$J(\theta) = \frac{1}{2}\sum_{i,j=1}^{|V|}f(X_{i,j})(\theta_i^Te_j+b_i+b'_j-log(X_{i,j}))^2$
这里 $f$ 是权重函数，例如 $X_{i,j}=0 \to f(X_{i,j}) = 0$

最终word embedding $e_w^{final}$
$e_w^{final} = \frac{e_w+\theta_w}{2}$

cosine similarity

word $w_1$ and word $w_2$ 之间的余弦相似性：
$\frac{w_1 \cdot w_2}{\|w_1\|\|w_2\|} = cos(\theta)$

t-SNE

减少高维度embedding，通常在2D空间使用

Marshal Zheng

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
斯坦福深度学习CS230课程cheatsheet学后总结笔记（2）

斯坦福深度学习CS230课程cheatsheet学后总结提纲2Marshal Zheng2019-04-13文章目录斯坦福深度学习CS230课程cheatsheet学后总结提纲2FACE VERIFICATION AND RECOGNITION模型类别-两种主要模型One Shot learningSiamese NetworkTriplet(三个一组) lossNeural style t...
复制链接

扫一扫