进入AI领域做产品 —— 我的自学之路(ASR)

本文介绍了语音识别ASR的基本概念、流程,并深入探讨了远场语音识别中的主要问题,包括麦克风阵列技术、语音激活检测VAD和语音唤醒VT。在远场识别中,麦克风阵列用于语音增强、声源定位和去混响,而VAD和VT则分别解决语音检测和激活问题。面对距离、噪音和功耗等挑战,ASR技术仍有待提升。
摘要由CSDN通过智能技术生成

语音和文字处理 —— 语音识别 ASR

概念

        将声音转化为文字的过程,相当于人的耳朵。

        可分为以HMM为主的传统识别以及DNN为主的端到端识别。

流程
  • 输入语音;
  • 编码;
  • 解码;
  • 输出。
主要问题

问题:

  • 远场语音识别是ASR目前的主要问题,也是未来的竞争热点,下面对其关键组成进行归纳。

麦克风阵列 MA:

  • 概念:
    • 麦克风阵列即是由一定数目的声学传感器如麦克风组成,用来对声场的空间特性进行采样并处理的系统。在远场语音识别时,需要前后端结合;
    • 一方面,前端使用麦克风阵列硬件通过声源定位以及自适应波束形成语音增强,在前端完成远场拾取声音,并解决噪声、混响、回声等带来的问题;
    • 另一方面,由于远近场的语音信号在声学上有一定的规律差异,所以在后端的语音识别上,需要结合大数据训练,针对远场的声学模型来提高识别率。
  • 分类:
    • 形状:
    • 线性:180°;
    • 环形:360°;
    • 球形:360°方位角,180°仰角。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值