2022最新版-李宏毅机器学习深度学习课程-P32 Transformer

QwQllly

已于 2023-11-07 16:11:55 修改

阅读量734

点赞数

分类专栏：李宏毅机器学习深度学习文章标签：深度学习机器学习 transformer

于 2023-10-31 14:24:21 首次发布

本文链接：https://blog.csdn.net/weixin_45626133/article/details/134139540

版权

李宏毅机器学习深度学习专栏收录该内容

25 篇文章 3 订阅

订阅专栏

一、 seq2seq

1. 含义

输入一个序列，机器输出另一个序列，输出序列长度由机器决定。

文本翻译：文本至文本；　　
语音识别：语音至文本；　　
语音合成：文本至语音；　　
聊天机器人：语音至语音。

2. 应用

自然语言处理（NLP问题），不过seq2seq有时候不一定是最佳的解决方法。

语音辨识

输入是声音讯号的一串的vector,输出是语音辨识的结果,也就是输出的这段声音讯号,所对应的文字⇒输出的长度由机器自己决定

机器翻译

机器读一个语言的句子,输出另外一个语言的句子,

输入的文字的长度是N,输出的句子的长度是N',那N跟N'之间的关系,也要由机器自己来决定

语音翻译

把他听到的英文的声音讯号翻译成中文文字

（动机：世界上有很多语言,他根本连文字都没有，不能用1.+2.串接）

训练数据：乡土剧语音+字幕

新词：硬train一发

语音合成Text-to-Speech (TTS) Synthesis

输入文字输出声音讯号

Chatbot

输入输出都是文字

利用人的对话进行训练

Question Answering (QA)

很多natural language processing的任务,都可以想成是question answering,QA的任务。QA的问题,就可以用Seq2Seq model来解

⇒具体来说，Seq2Seq model输入的就是有问题跟文章把它接在一起,输出就是问题的答案

⇒输入一个文字序列→输出一个文字序列

翻译
摘要
情感分析

▶️对多数NLP的任务,或对多数的语音相关的任务而言,往往為这些任务特制化模型,你会得到更好的结果

https://speech.ee.ntu.edu.tw/~hylee/dlhlp/2020-spring.html

Syntactic Parsing 句法分析（文法剖析）

grammar as a Foreign Language

例如，给机器一段文字，Deep learning is very powerful，机器要做的事情是产生一个文法的剖析树 。

输出结果（剖析树）告诉我们，deep 加 learning 合起来是一个名词短语，very 加 powerful 合起来是一个形容词短语，形容词短语加 is 以后会变成一个动词短语，动词短语加名词片语合起来是一个句子

文法剖析要做的事情就是产生这样子的一个 Syntactic tree，所以在用 deep learning 解决文法剖析的任务里面，输入是一段文字（一个Sequence），输出是一个树状的结构，（可以把他看作是一个Sequence，一个代表句法分析树的序列）

multi-label classification

（多标签分类问题：同一个对象可以属于多个class

区分：

multi-class classification：为样本从数个 class 中选择某一个 class（多对一）
multi-label classification：同一个样本可以属于多个 class （一对多）

难点：每篇文章对应几个 class 不好确定 ⇒ seq2seq 决定要输出几个

Object Detection 物体检测

图像识别领域

3. Seq2seq 实现方式

seq2seq's model = Encoder（编码器） + Decoder（解码器）

这两部分可以使用RNN或transformer实现，seq2seq主要是为了解决输入和输出长度不确定的情况。

Encoder：将输入（文字、语音、视频等）编码为单个向量，这个向量可以看成是全部输入的 抽象表示。

Decoder：接受 encoder 输出的向量，逐步解码，一次输出一个结果，每次输出会影响下一次的输出，开头加入 <BOS> 表示开始解码， <EOS> 表示输出结束。

① Encoder

用途：输入一排向量（序列），输出另外一排同样长度的向量（序列）

可以使用：Self-attention，RNN，CNN

A、encoder 就是通过多层 block（模块），将输入转换成向量。每一个 block 都包含若干层（ self-attention 和 fully connect 等网络结构 )，每个 block 输入一排向量，输出相同数量的一排向量。

B、block 的内部细节构成如下（在 input 送入 block 之前，需先进行 positional encoding，这个知识点在 self - attention 中有提过）。

C 、它考虑所有输入向量后的输出向量，其中 b 是原来的 input 向量，经过残差网络（residual connection：把 a vector 加上它的 b input vector 作为 output ）和标准化后，送到全连接神经网络 FC ，由于在 FC network 中也有 residual 的架构，因此需要再经过一组残差网络 + 标准化后得到输出。（注意：这里的标准化是 layer normalization 而不是 batch normalization）。这个输出才是 residual network 里一个 block 的输出。

batch normalization：对不同的 example 不同 feature 的同一个 dimention 去计算平均值 mean 和标准差 standard deviation。
layer normalization：对同一个 example 同一个 feature的不同 dimention 去计算平均值 mean 和标准差 standard deviation。

总结 - 每个Block中的架构

1.multi self-attention

2.**residual connection:**把这个vector加上它的input作为output【残差网络】

3.**layer normalization:**对同一个feature,同一个example,不同的dimension,去计算mean跟standard deviation

4.FC network这边,也有residual的架构

5.把residual的结果,再做一次layer normalization得到的输出,才是residual network裡面,一个block的输出

To Learn more

1.transformer的encoder变式

如：Residual与Normalization的顺序调换

2.为什么是layer Norm:Power Norm

Power Norm：Rethinking Batch Normalization In Transformers,

https://arxiv.org/abs/2003.07845

② Decoder

decoder主要有两种：AT（autoregressive）与 NAT（non-autoregressive），Decoder 要做的事情：产生最终的输出结果

A、autoregressive（AT）decoder

以语音辨识为例

1. 向 Decoder 输入 Encoder 产生的向量

2. 在 Decoder 可能产生的文字库里多加一个标识字符 BEGIN ，它代表 “ Decoder 开始识别” 来提醒机器（BOS： begin of sentence）

NLP 的问题中，每一个 Token 用一个 One-Hot 的 Vector 来表示，其中正确的类别标识是 1，其他都是 0，其中 BEGIN 也是用 One-Hot Vector 来表示

3. 经过 softmax 之后，Decoder 会输出一个和输入的 Vocabulary Size 一样的向量长度的向量结果。对比已知文字库，找到相似度最高的字符就是最终输出的字符。（这里“机”字就是这个 Decoder 的第一个输出）

Vocabulary Size：取决于你输出的单位。比如输出中文，则size是中文方块字的数目。

4. 再把上一步的输出当做下一个的输入。（在本例中，第二次 Decoder 把 “机” 当做是 Decoder 的 Input，在上一步 “机” 是 Decoder 的输出结果）经过一系列相同的操作后我们会得到第二次 Decoder 的输出，再作为第三次的输入，继续输出后续的文字，以此类推……

如果Decoder 看到错误的输入,让 Decoder 看到自己產生出来的错误的输入,再被 Decoder 自己吃进去,会不会造成 Error Propagation——一步错，步步错⇒后文解决：Teacher Forcing技术

5. 机器自己决定输出的长度：一个特别的标识符 ”END” 代表工作结束

总结： 除了中间的部分，Encoder 跟 Decoder 并没有太大的差别。最后我们可以再做一个 Softmax，可以通过计算输出的概率分布与 Ground Truth 之间的 交叉熵（Cross Entropy）并求梯度实现优化，交叉熵的值越小越好。

Masked self-attention：产生输出时，不能再看”右边“的部分⇒因为，实际上就是顺次产生的

缺点：如果Decoder 看到错误的输入，让 Decoder 产生错误的输出并被代入到下一步 Decoder 工作的输入中,会会造成 Error Propagation（一步错，步步错）⇒ 解决：Teacher Forcing技术（但是测试的时候显然没有正确答案可以给 Decoder 看）

Mismatch：由于 Teacher Forcing的存在，训练跟测试的情景不一致。Decoder 在训练的时候永远只看过正确的东西，但是在测试的时候，仍然会导致一步错、步步错。

解决：给 Decoder 的输入加一些错误的东西 ⇒ Scheduled Sampling（但是也会一定程度损害平行化的能力）

B、Non-autoregressive (NAT) decoder

① 特点：NAT 不是依次有序进行 decoder 工作并挨个输出，而是一次性在输入时赋予整个句子一整排的 “ BEGIN ” 标识，把整个句子的 decoder 结果一次性都输出

② 思路：如何确定BEGIN的个数：

另外训练一个 Classifier，输入 Encoder 的 Input vector，输出是一个数字（代表 Decoder 应该要输出的长度）
给它若干个 BEGIN 的 Token，比如输出句子的最大长度不超过 300，就给 input 300 个 BEGIN token，然后就会相应地一次性输出 300 个字（遇到有输出 END 时表示这个句子输出结束），但是可能会比较耗费内存空间

③ 好处：

并行化。NAT 的 Decoder 不管 input 句子的长度大小，都是一次性输出完整的句子结果，所以在执行速度上 NAT 的 Decoder 比 AT 的 Decoder 要快
容易控制输出长度。

④ 应用：

常用在语音合成，例如：利用其中一个决定 NAT 的 Decoder 应该输出的长度的 Classifier，我们可以通过设置这个输出长度的大小以调整语音的速度。（如果要让输出的语音讲快一点，就把 Classifier 输出的长度数值除以 N，它讲话速度就变成 N 倍速；同理，如果想要合成的语音变为慢速，就把 Classifier 输出的长度数值乘 N 倍）

⑤ 缺点：虽然 NAT 看起来有很多优点（尤其是并行化），但是 NAT 的 Decoder 实际上 Performance 往往都不如 AT 的 Decoder。为什么NAT 没有 AT 实际效果好 ⇒ Multi-Modality 参考链接

4. Encoder-Decoder之间的信息传递 ⇒ CrossAttention

有两个输入来自Encoder（Encoder 提供两个箭头）， Decoder 提供了一个箭头

细节

总而言之，Decoder 就是產生一个q,去 Encoder 抽取信息出来,当做接下来的 Decoder 的Fully-Connected 的 Network 的 Input

拓展：Decoder可以看Encoder中的许多层而不一定只是最后一层。

Training（以语音辨识为例）⇒分类

训练数据：一段音频与对应的文字，文字为one-hot编码的向量

训练过程：Decoder输出的是概率分布。可以通过输出的概率分布与Ground Truth之间的计算交叉熵（Cross Entropy）并求梯度实现优化，交叉熵的值越小越好。

注意，最后还有END符号。

注意：在训练Decoder时，会输入“正确答案”而不是自己产生的答案⇒Teacher Forcing

(但是测试的时候,显然没有正确答案可以给 Decoder 看)

5. Tips(for seq2seq model)

Copy Mechanism

原理：Decoder 没有必要自己创造输出,它需要做的事情也许是从输入的东西裡面复製一些东西出来，而不是“创造词汇”

举例：

1. 聊天机器人

2. Summarization（摘要）

最早有复制能力的模型：Pointer Network https://youtu.be/VdOyqNQ9aww

Guided Attention

目的：强迫机器一定要把输入的每一个东西通通看过（如TTS），强迫Attention要有一定的方式。

动机：Sequence-To-Sequence Model,有时候 Train 会產生莫名其妙的结果，比如漏字（没有看到）

例如，对语音合成或者是语音辨识来说,我们想像中的 Attention,应该就是由左向右

例如：Mnotonic Attention,或 Location-Aware 的 Attention

Beam Search（集束搜索）

Decoder的任务：每一次在第一个 Time Step,它在 A B 裡面决定一个,然后决定了 A 以后,再把 A 当做输入,然后再决定 A B 要选哪一个

对比：Gready Decoding

每次找分数最高的那个 Token

Beam Search,它用比较有效的方法找一个估测的 Solution,一个不是完全精準的 Solution

Beam Search有时候有用，有时候没有用

找出分数最高的路不见得比较好 ⇒ 看你的任务的本身的特性

就假设一个任务，它的答案非常地明确

比如说语音辨识，说一句话辨识的结果就只有一个可能
你需要机器发挥一点创造力的时候，这时候 Beam Search 就比较没有帮助,

举例， Sentence Completion（故事续写），有无穷多可能的发展方式，那这种需要有一些创造力的，往往会比较需要在 Decoder 里面加入随机性

举例，语音合成TTS ，测试时加入噪声……

评测标准（Optimizing Evaluation Metrics?）

BLEU Score 是 Decoder產生一个完整的句子以后再去跟正确的答案一整句做比较

什么是BLEU？BLEU是衡量两个句子之间相似度的一个指标。

机器翻译评价指标之BLEU详细计算过程_藏知阁-CSDN博客

但是，在训练时，是对每一个生成的token进行优化，使用的指标是交叉熵。

换言之，训练的时候,是看 Cross Entropy,但是我们实际上你作业真正评估的时候,看的是 BLEU Score

不能把BLEU作为LOSS ⇒ 无法微分。

解决办法：遇到你在 Optimization 无法解决的问题,用 RL 硬 Train 一发。遇到你无法 Optimize 的 Loss Function,把它当做是 RL 的 Reward,把你的 Decoder 当做是 Agent。

Scheduled Sampling

由于Teacher Forcing的存在，训练跟测试的情景是不一致。Decoder 在训练的时候,永远只看过正确的东西,那在测试的时候,只要有一个错,那就会一步错步步错。

解决：给 Decoder 的输入加一些错误的东西⇒Scheduled Sampling。

问题：会损害平行化的能力。

结束！

QwQllly

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
4
评论
2022最新版-李宏毅机器学习深度学习课程-P32 Transformer

2.**residual connection:**把这个vector加上它的input作为output【残差网络】3.**layer normalization:**对同一个feature,同一个example,不同的dimension,去计算mean跟standard deviation4.FC network这边,也有residual的架构5.把residual的结果,再做一次得到的输出,才是residual network裡面,一个block的输出。
复制链接

扫一扫