李宏毅深度学习 Transformer

最新推荐文章于 2024-05-08 21:29:03 发布

wkywcd

最新推荐文章于 2024-05-08 21:29:03 发布

阅读量198

点赞数

文章标签： transformer 语音识别深度学习

本文链接：https://blog.csdn.net/wkywcd/article/details/119942907

版权

一、Transformer是什么

a、sequence-to-sequence for 语音

输入序列，输出的序列长度由机器决定
语音辨识VS语音合成
eg：输入方言输出中文——语音辨识
输入中文输出语音——语音合成
现在的台语辨识是一个两阶段，第一阶段台语转中文，第二阶段中文转台语。第二阶段可以看成transformer的网络
b、sequence-to-sequence for chat
QA问题

c、sequence-to-sequence for 文法剖析

d、sequence-to-sequence for 多标签分类
一篇文章可以属于多个类别，而Sequence-to-Sequence输出是由机器决定长度，所以可以用Sequence-to-Sequence模型
e、sequence-to-sequence for Object Detection

Seq2Seq总结

在这里插入图片描述

a、Autoregressive（以语音辨识为例介绍）
在Encoder中所做的工作是输入一段向量序列输出一段向量序列然后进入Decoder
在这里插入图片描述
b、Decoder的内部结构

mask attention

c、Non-Autoregressive

从输入复制东西

输入和输出要对齐（也就是输入的每一个内容都很重要，不能漏）
对语音合成、语音辨识比较重要
在这里插入图片描述

在这里插入图片描述

beam search是对贪心策略一个改进。思路也很简单，就是稍微放宽一些考察的范围。在每一个时间步，不再只保留当前分数最高的1个输出，而是保留num_beams个。当num_beams=1时集束搜索就退化成了贪心搜索
下图是一个实际的例子，每个时间步有ABCDE共5种可能的输出，即，图中的num_beams=2，也就是说每个时间步都会保留到当前步为止条件概率最优的2个序列

测试可能会某个输出错误而导致后面的错误
在这里插入图片描述

关注