基于注意力机制的语音识别

研究背景

在表达不同的情绪的语音,在人耳能感到的特征方面,有明显的区别 (如下图)
在这里插入图片描述

语音情绪识别的工具

  • 传统的机器学习
  • 深度学习

其中深度学习常见的是 卷积神经网络 和 循环神经网络, 前者适合应用于空间分布数据,后者更多的适合应用于时间性的分布数据。

由于情感的标签本身就具有一定的主观性,所以一般实验使用国际上广泛认证的两个最常用的数据集,都是由专业演员进行演绎,并有情感专家鉴别生成的数据集。


研究现状

语音情绪识主要有两个步骤组成: 特征提取 和 分类


特征提取方面

人们从语音中发现了并提取了一组与情绪状态密切相关的特征,作者使用短时窗口滑动的方式,提取了一组 6373 个特征的特征集。后来 Eyben 等人提出了一个更加简洁而有效的数据集(GeMAPS),这个数据集由 62 个特征组成。

分类器方面

语音情绪识别借鉴于在语音识别中,广泛应用的隐马尔科夫模型(HMM)去拟合情感状态进行分类。


语音情绪识别,主要是在两个方向上

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值