Chapter1-1_Speech_Recognition(Overview)

本文为李弘毅老师【Speech Recognition - Overview】的课程笔记,课程视频youtube地址,点这里👈(需翻墙)。

下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。

文章索引:

下篇 - 1-2 LAS

总目录

1 古人看语音辨识

50年前的人们是如何看待语音辨识的?有一位比较有权威的人物认为语音辨识就像是把水变成汽油,从海底捞金,治愈癌症或者登上月球。该观点也让那个时代的许多人放弃了进行语音辨识方向的相关研究。
ch1-1-1
而如今,已经无需置疑语音辨识的可行性,几乎每一只手机里都有着语音辨识。

2 什么是语音辨识

简而言之,语音辨识就是输入一段声音信号,经过模型处理后,输出对应的文字信息。
ch1-1-2
其中的输入的声音信号是由 T T T个长度为 d d d的vector组成,而输出的文本则是 N N N个token,token的种类会被限制,种类的数量为 v v v,可以理解为一个大小为 v v v的词库。通常来说, T T T要远大于 N N N

2.1 输出部分 - Token

目前被使用的token可以归为五类:

  • Phoneme: 发音的基本单元
  • Grapheme: 书写的基本单元
  • Word: 词
  • Morpheme: 语义的基本单元
  • Byte: 字节😲

Phoneme可以看成是音标,比如英文可以转化成如下的样子。在深度学习还不怎么流行的时候,Phoneme是一个不错的选择,因为它和声音的关系十分直接,但它有一个缺点就是在模型得到Phoneme之后,还需要将其再转换成word,这需要额外的语言学知识。
ch1-1-3
Grapheme是书写的基本单元,比如在英文当中就是字母。当然,对于模型来说,只有字母是不够的,还需要有空白符,甚至需要一些标点符号。在中文当中,Grapheme就是方块字,中文和英文不同的在于,中文不需要空白符。Grapheme有一个好处就是,它不需要额外的语言学知识,模型的输出即是最终的结果。不过,Grapheme对模型来说也是一个挑战,因为它和声音信号之间没有直接的关系。
ch1-1-4
Word就是词汇,对于英文来说,用空格分隔的就是一个Word,但对中文来说就不太好分了。用Word来做是一个不推荐的选择,因为对于语言来说Word实在是太多了!
ch1-1-5
Morpheme是可以传达语义的最小单位,它比Word要小,比Grapheme要大。如下图就是几个例子,但Morpheme的定义也比较模糊,局限性很大。
ch1-1-6
还有一种很狂的方法,就是直接用Byte!比如所有的语言都用UTF-8来表示,这样就不需要考虑是什么语言了。个人认为这是一种特殊的Grapheme。
ch1-1-7
李宏毅老师的助教们收集了2019年INTERSPEECH’19, ICASSP’19, ASRU’19中超过100篇论文中使用token的比例,如下图所示,感谢助教们!👍
ch1-1-8

2.2 输入部分 - 声音信号特征

通常利用滑窗法将声音信号变为一个 T × d T \times d T×d的向量。如下图所示,我们使用长度为25ms的窗口,在一个16KHz的的声音信号上进行滑动,每次滑动的间隔为10ms,得到的截片被称为是frame,那么一个1s的声音信号就可以被分为100个frames( T = 100 T=100 T=100)。每个frame中有400个采样点,可以直接使用这400个点的数值作为这个frame的特征( d = 400 d=400 d=400),但不推荐这样做。目前都会采用MFCC( d = 39 d=39 d=39)或者filter bank output( d = 80 d=80 d=80)的方法将这个原始信号进行转换。
ch1-1-9
声音信号在进行特征抽取时,需要进行多个变换,每一个步骤得到的结果都可以直接被用于模型的输入。离散傅里叶变换将原始声音信号转换成频谱图,据李老师说,可以用人眼从频谱图中看出来这个信号是什么🙈!得到频谱图后,对其进行采样,经过多个设计过的filter,得到了filter bank output的特征结果,一般会取一个log。log的结果再进行离线余弦变换后可以得到MFCC的特征结果。
ch1-1-10
同样地,辛勤的助教们也在2019年INTERSPEECH’19, ICASSP’19, ASRU’19中统计了使用的输入信号特征的结果。再次感谢助教们!👍
ch1-1-11

3 数据集

语音辨识的一些公开数据集如下图所示,用于商业的模型使用的数据集是远大于下面的数据集的。
ch1-1-12

4 模型

本课程会介绍的语音辨识模型有如下几种:

  • Listen, Attend, and Spell (LAS) (2015)
  • Connectionist Temporal Classification (CTC) (2006)
  • RNN Transducer (RNN-T) (2012)
  • Neural Transducer (2016)
  • Monotonic Chunkwise Attention (MoChA) (2018)

而目2019年的论文中,各个模型的使用情况如下如所示:
ch1-1-14

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

七元权

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值