[学习笔记]刘知远团队大模型技术与交叉应用L2-Neural Network Basics

N刻后告诉你

已于 2024-01-21 19:23:48 修改

阅读量890

点赞数 25

分类专栏：深度学习读书笔记文章标签：学习笔记

于 2024-01-14 21:08:22 首次发布

本文链接：https://blog.csdn.net/zhangyifeng_1995/article/details/135582863

版权

深度学习同时被 2 个专栏收录

15 篇文章 1 订阅

订阅专栏

读书笔记

6 篇文章 1 订阅

订阅专栏

本节首先介绍神经网络的一些基本构成部分。然后简要介绍神经网络的训练方式。介绍一种基于神经网络的形成词汇的向量表示的方法。接下来继续介绍常见的神经网络结构：RNN和CNN。最后使用PyTorch演示一个NLP任务的一个完整训练的Pipeline。

神经网络的基本组成

单个神经元

(人工)神经元接受n个输入，1个输出。由参数w、b以及激活函数f来构成。
在这里插入图片描述

单层神经网络

多个单个神经元组成单层神经网络。
在这里插入图片描述

矩阵表示

在这里插入图片描述

多层神经网络

多个单层神经网络叠加在一起可以形成多层神经网络。
从前往后依次进行神经元的计算称为前向计算(传播)。
在这里插入图片描述

前向计算

前向计算过程中，中间神经元的输出结果被称为隐层输出，用符号h表示。
在这里插入图片描述

为什么要用非线性激活函数`f`?

如果没有非线性激活函数，那么多层神经网络本质上等价为单层神经网络。所以非线性激活函数对保持神经网络的层数，提高神经网络的表达能力是必要的。
在这里插入图片描述

常见的激活函数

sigmoid：将实数转化为(0,1)上的数
Tanh：将实数转化为(-1,1)上的数
ReLU：将负数全部转为0，正数保留
在这里插入图片描述

网络的输出层

输出层有多种形态，取决于模型的要求。以线性输出和sigmoid输出层为例。
线性输出层一般用于回归问题。
sigmoid输出层可以用于解决二分类问题：将隐层结果压到(0,1)，然后这个值用于概率。
softmax输出层可以解决多分类问题：首先将隐层结果转化为我们分类的维度长的向量，然后经过softmax函数转化为概率向量。
在这里插入图片描述

如何训练一个神经网路

训练目标

回归问题，可以用最小化均方差作为训练目标。
在这里插入图片描述
分类问题，可以用最小化交叉熵作为训练目标。

随机梯度下降

沿着负梯度方向可以使函数值下降。
在这里插入图片描述

梯度

在这里插入图片描述

链式法则

在这里插入图片描述

反向传播

在实际深度学习场景中，对每个参数梯度的计算是通过反向传播算法实现的。
下面先介绍计算图的概念。

计算图

在这里插入图片描述

反向传播

在这里插入图片描述

反向传播（单个节点）

链式法则可以将上游梯度和下游梯度通过本地梯度链接起来。
在这里插入图片描述

词向量表示：Word2Vec

Word2Vec实际上有两类模型，一类是Continuous bag-of-words(CBOW)，一类叫Continuous skip-gram。
在这里插入图片描述

滑动窗口

Word2Vec使用滑动窗口来构造训练数据。滑动窗口是指一段文本中连续出现的几个单词。窗口中间的词称为target，其他被称为context。
CBOW是根据context词来预测target词的模型。
skip-gram则相反，是根据target词来预测context词的模型。
在这里插入图片描述
例子

CBOW模型

bag-of-word假设不考虑context词的顺序对target词的预测的影响。
以Never to late to learn这句话为例，应用CBOW模型。假设窗口大小为3，就是要用never，late来预测too。
下面是CBOW的网络结构。
在这里插入图片描述

Skip-Gram模型

下面是Skip-Gram的模型结构。
在这里插入图片描述

Full Softmax的问题

上面两个模型，最后都将转化为分类问题，最后经过映射到词表大小的频率向量中，最后再使用cross entropy loss来进行训练。
但是当词表非常大的时候，进行softmax后，进行反向传播的计算量非常大。所以需要想办法提高计算的效率。
下面介绍两种提高计算效率的方法：

负采样(Negative sampling)

想法是不对所有负例更新权重，而是采样其中一部分进行权重更新。采样的依据是词的频率，词频越高越容易被采样。
在这里插入图片描述

负采样使得最后需要更新的参数量下降很多，使Word2Vec模型计算成为可能。

分层softmax(Hierarchical softmax)

略

Word2Vec的其他训练技巧

Sub-Sampling

为了平衡常见词和罕见词出现的频率。一般而言，罕见词出现概率低，但是可能包含丰富语义信息，所以利用下面的公式计算去掉一些词的概率。具体来说，如果一个词出现频次高，那么这个词被去掉的概率就越高。
在这里插入图片描述

非固定大小的滑动窗口

前面讲到的context词处于平等地位。实际上，如果考虑离target词近的词可能比远离target词的context词更与target词相关。所以可以考虑使用不固定大小的滑动窗口。它的大小根据采样得到。这样离target词近的词有更大概率被采样和训练。
在这里插入图片描述

循环神经网络RNNs

下图是RNN的神经网络结构。
在这里插入图片描述

RNN单元

上面的RNN网络结构可以看成是RNN单元的复制。
RNN当前隐藏状态的值是依赖于过去隐藏状态值的。
在这里插入图片描述

RNN语言模型

下面是一个例子。可以发现其中的参数是共享的，这有助于模型可以泛化到不同长度的样本。也有助于减少参数量。
在这里插入图片描述

RNN的应用场景

序列标注(Sequence Labelling)：给定一句话，要求给出每个词的词性
序列预测(Sequence Prediction)：给定一周七天的温度，预测每天的天气情况
图片描述(Photograph Description)：给定图片，创造一句话来描述对应图片
文本分类(Text Classification）：给定一句话，区分其情感是正面还是负面的

RNN的优缺点

优点：

可以处理变长数据
模型大小不会随着输入的增大而增大
权重是共享的
后面的计算理论上可以获取到前面的信息

缺点：

顺序计算很慢
实际应用中，后面的计算很难获取到前面的信息

RNN上的梯度问题-梯度消失/爆炸

在这里插入图片描述
为了解决RNN的缺陷，需要更优的RNN单元。因此提出了两个变体，分别是GRU和LSTM。

Gated Recurrent Unit(GRU)

在传统RNN中引入gating机制。分别引入更新门和重置门。这两个门的作用是权衡过去信息和当前信息的影响。
更新门：计算信息更新时，过去传过来的隐藏层信息和当前的信息的比例
重置门：计算当前临时信息时，有多少比例的过去的信息被考虑
在这里插入图片描述

下面演示一个GRU的计算。
分别计算重置门的系数，更新门的系数。新的临时隐藏层参数。再加上上一层隐藏层的输出。利用这些就可以计算需要传输到下一层的隐藏变量hi。

当重置门的系数为0时，则上一层隐藏层的输入不参与这一层临时隐藏层的计算。
一个例子是，一个新文章的开头，过去的信息是无用的。
在这里插入图片描述
更新门的系数接近1，则表示当前层的输出近似等于上一层的隐藏层输出。
如果系数接近0，则当前层的输出近似等于当前层临时隐藏变量，相当于丢弃了之前的状态。

长短期记忆网络（LSTM）

LSTM是一种特殊的RNN，和GRU一样可以进行长序列的学习。
LSTM的核心是cell状态 $C_t$ ，主要由他来捕获长期的依赖关系。
在这里插入图片描述

LSTM-遗忘门

遗忘门 $f_t$ ：决定哪些信息可以从cell状态中移除。
在这里插入图片描述

LSTM-输入门

输入门 $i_t$ ：决定哪些信息可以存入cell状态里。
由 $\tilde{C}_t$ 生成新的候选的cell状态。
由 $i_t$ 决定 $\tilde{C}_t$ 中的哪些部分存入到cell状态中。
在这里插入图片描述

更新cell状态

在这里插入图片描述

输出门

输出门 $o_t$ ：计算哪些部分可以被输出为 $t$ 时刻的输出。
更新后的cell状态 $C_t$ 先经过非线性函数，然后乘以 $o_t$ 获得输出。
在这里插入图片描述

双向RNNs（Bidirectional RNNs）

传统RNNs，t时刻的状态只捕获之前时间的信息。但在有些应用中，我们还可以依赖未来的输入。例如：手写体识别，语音识别。
在这里插入图片描述

卷积神经网络CNNs

CNN常用于计算机视觉领域。但由于它结构的特殊性，也可以用于很多NLP任务上，如情感分类，关系分类。
CNN比较擅长提取局部和位置不变的模式。
如在计算机视觉中，CNN擅长提取颜色，边角，纹理等。
在NLP中，CNN擅长提取短语，局部的语法结构。
在这里插入图片描述

CNN提取局部模式的步骤

CNN提取局部模式：

计算一个句子中所有可能的N元组短语的表示
不需要额外的语言学数据

在这里插入图片描述

CNN网络结构

输入层、卷积层、最大池化层、全连接层
输入层：数据需要预处理，构成一个向量矩阵
卷积层：通过filter，对向量矩阵进行卷积，来提取特征向量
最大池化层：信息进一步提取，选取最大值(或者平均值)
非线性层：根据任务不同，对特征向量进行处理
在这里插入图片描述

输入层

通过词嵌入将单词转化为向量表示。
在这里插入图片描述

卷积层

通过一个滑动的卷积核，进行卷积。
卷积核的参数是全局共享的。
在这里插入图片描述

PyTorch Pipeline

准备数据->构建模型->训练模型->验证模型->测试模型

N刻后告诉你

关注

25
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
[学习笔记]刘知远团队大模型技术与交叉应用L2-Neural Network Basics

本节首先介绍神经网络的一些基本构成部分。然后简要介绍神经网络的训练方式。介绍一种基于神经网络的形成词汇的向量表示的方法。接下来继续介绍常见的神经网络结构：RNN和CNN。最后使用PyTorch演示一个NLP任务的一个完整训练的Pipeline。
复制链接

扫一扫