2022清华暑校笔记之L2_2 CNN和RNN基础介绍

最新推荐文章于 2024-01-07 02:08:01 发布

鸭脖没了

最新推荐文章于 2024-01-07 02:08:01 发布

阅读量1.2k

点赞数

分类专栏：深度学习文章标签： rnn cnn 深度学习

本文链接：https://blog.csdn.net/zty5556666/article/details/125758245

版权

4 篇文章 0 订阅

订阅专栏

2022清华大学大模型交叉研讨课

序列数据顺序记忆（大脑更易识别）

输入通常是不定长的数据，h为不同时间步的变量，y为输出
RNN结构单元

在这里插入图片描述
顺序记忆：每一个时间步的hi都是由上一个隐藏状态的内容，h0需要自己初始化的。

思路：优化单元，将隐藏层变复杂

将门控机制引入RNN，权衡过去的信息和当前输入信息的权重。观察式子我们发现，此处的W均为专属的权重
在这里插入图片描述

重置门
$\tilde{h}_{i}=\tanh \left(W_{x} x_{i}+r_{i} * W_{h} h_{i-1}+b\right)$
考虑到上一层的状态对当前的激活，我们可以得到一个临时的hi.
如果我们的ri接近于0的话，我们会发现hi和上一个hi的关系很弱。
更新门
$h_{i}=z_{i} * h_{i-1}+\left(1-z_{i}\right) * \tilde{h}_{i}$
权衡新得到的hi和hi-1之间的影响，从而得到传输到下一层的hi。
当zi接近于1的时候，hi和hi-1完全相等；当zi接近于0的时候，我们可以直接采用激活后的新hi。
演示

门控机制的好处：可以控制不同地方的关联性（快捷地建立较远的关系）；减少数量

Ct
- 新增了一个Ct表示cell的状态，用来学习长期的依赖关系。
Forget gate ft 遗忘门

$f_{t}=\sigma\left(W_{f} \cdot\left[h_{t-1}, x_{t}\right]+b_{f}\right)$
决定上一个状态中的哪些信息可以从cell中移除。计算方式：当前的状态和上一层隐藏层状态。最后得到的ft为0-1区间内。如果为0，表示过去的信息直接丢弃。
输入门

决定哪些信息可以存入cell状态中
- it：输入门参数
  $i_{t}=\sigma\left(W_{i} \cdot\left[h_{t-1}, x_{t}\right]+b_{i}\right)$
- $\tilde{C}_{t}$ 为待选的ct变量
  $\tilde{C}_{t}=\tanh \left(W_{C} \cdot\left[h_{t-1}, x_{t}\right]+b_{C}\right)$
更新cell state
- $C_{t}=f_{t} * C_{t-1}+i_{t} * \tilde{C}_{t}$
- 首先更新旧的cell state：将遗忘门乘上一层cell state，来决定哪些信息需要摒弃
- 将输入门和待选的新向量相乘，来决定当前哪些信息需要加入下一层的信息cell state。
输出门
输出门决定哪些信息可以输出
$o_{t}=\sigma\left(W_{o}\left[h_{t-1}, x_{t}\right]+b_{o}\right)$
$h_{t}=o_{t} * \tanh \left(C_{t}\right)$
(可以理解成调整一些信息来适应单词的表述）

前言
- 在传统RNN任务中，每一个隐藏状态变量都是从之前时间中的状态变量和当前的输入决定的
- 但是很多应用中我们会依赖于整个输入序列
- 例子：手写/语音识别
示例图

将词通过word embedding转化成向量表示。
在这里插入图片描述
X为词向量表示矩阵，m此处为6，d为我们继续词向量表示时选取的维度。

第二行，表示选取的N元组
W滑动的卷积核
f卷积之后的特征表示

卷积核的大小是全局参数共享的
在这里插入图片描述

在这里插入图片描述

关注