语音和文字处理 —— 语音识别 ASR
概念
将声音转化为文字的过程,相当于人的耳朵。
可分为以HMM为主的传统识别以及DNN为主的端到端识别。
流程
- 输入语音;
- 编码;
- 解码;
- 输出。
主要问题
问题:
- 远场语音识别是ASR目前的主要问题,也是未来的竞争热点,下面对其关键组成进行归纳。
麦克风阵列 MA:
- 概念:
- 麦克风阵列即是由一定数目的声学传感器如麦克风组成,用来对声场的空间特性进行采样并处理的系统。在远场语音识别时,需要前后端结合;
- 一方面,前端使用麦克风阵列硬件通过声源定位以及自适应波束形成语音增强,在前端完成远场拾取声音,并解决噪声、混响、回声等带来的问题;
- 另一方面,由于远近场的语音信号在声学上有一定的规律差异,所以在后端的语音识别上,需要结合大数据训练,针对远场的声学模型来提高识别率。
- 分类:
- 形状:
- 线性:180°;
- 环形:360°;
- 球形:360°方位角,180°仰角。