研究背景
在表达不同的情绪的语音,在人耳能感到的特征方面,有明显的区别 (如下图)
语音情绪识别的工具
- 传统的机器学习
- 深度学习
其中深度学习常见的是 卷积神经网络 和 循环神经网络, 前者适合应用于空间分布数据,后者更多的适合应用于时间性的分布数据。
由于情感的标签本身就具有一定的主观性,所以一般实验使用国际上广泛认证的两个最常用的数据集,都是由专业演员进行演绎,并有情感专家鉴别生成的数据集。
研究现状
语音情绪识主要有两个步骤组成: 特征提取 和 分类
特征提取方面
人们从语音中发现了并提取了一组与情绪状态密切相关的特征,作者使用短时窗口滑动的方式,提取了一组 6373 个特征的特征集。后来 Eyben 等人提出了一个更加简洁而有效的数据集(GeMAPS),这个数据集由 62 个特征组成。
分类器方面
语音情绪识别借鉴于在语音识别中,广泛应用的隐马尔科夫模型(HMM)去拟合情感状态进行分类。
语音情绪识别,主要是在两个方向上