第一讲 语音识别综述学习笔记

1.语音

在这里插入图片描述

在这里插入图片描述
一些相关概念
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.语音识别

在这里插入图片描述

语音识别的评估

在这里插入图片描述

语音识别系统的分类

• 说话人:特定人、非特定人
• 语种:单一语种、多语种
• 词汇量:大、中、小
• OOV:Out of Vocabulary
• 设备:云侧、端侧
• 距离:近讲、远讲…

语音识别的应用

• AIoT入口:智能音箱、智能电视、智能家电、智能穿戴、机器人…
• 智能服务:智能客服、自动质检…

3. 语音交互:生成与感知

语音交互

在这里插入图片描述

语音生成

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

语音感知

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

4.语音识别具有挑战性

在这里插入图片描述
说话人“之内”和“之间”的可变性
• 内:讲话方式、状态…
• Whispered Speech Recognition
• 间:口音、说话风格…

• 信道和环境的可变性
• 信道:不同特性麦克风、不同采样率、传输编码…
• 环境:距离衰减、噪声、混响、干扰人声…

5.现代语⾳识别框架

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.工具包下载

• HTK: http://htk.eng.cam.ac.uk/ ©
• Kaldi: http://kaldi-asr.org/ (c++, python)
• ESPNet: https://github.com/espnet/ (pytorch based)
• Lingvo: https://github.com/tensorflow/lingvo.git (Tensorflow based)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值