情绪分类
可以根据activation和valence将情绪简单分为两类,包括:
- 声音大、快、高频能量大、pitch均值大而且分布范围广,比如joy/anger/fear
- 相反,比如sadness
情绪的类别根据palette theory可以分为以下几类:
anger/fear/joy/sadness/surprise/disgust
公开数据集
特征
类别维度
global feature
在准确率和速度方面,全局特征更有优势,特征数量少。
全局特征的优势体现在区分high-arousal和low-arousal情绪,比如anger和sadness,在区分similar arousal的时候效果不好,比如区分同属于high-arousal的anger和joy;全局特征的另外一个缺点在于丢失了时域信息,在应用HMM和SVM的时候有一定的局限性.
local feature
具有时域相关性,可以采用hmm的建模方法;特征数量多,SVM分类样本充足;计算量大。
####segmental feature
基于音素的特征,每一个音素的发音对应一个特征,缺点在于需要音素级别的标注。还可以把每一个语音段作为一个特征。
特征类别
continuous features
包括
- pitch
- formants
- energy
- timing
- articulation
每一类可以有均值、极大极小值、标准差、范围等信息构成。但是在区分anger、fear、joy和surprise的时候有局限性。
qualitative features
- voice level
- voice pitch
- phrase,phoneme,word and feature boundaries
- temporal structures
spectral features
- LPCC
- MFCC
- LFPC
TEO-based fetures
Teager-energy-operator,是一种适合压力检测的特征,TEO定义如下:
Φ
{
x
[
n
]
}
=
x
2
[
n
]
−
x
[
n
−
1
]
x
[
n
+
1
]
\Phi \{x[n]\}=x^2[n]-x[n-1]x[n+1]
Φ{x[n]}=x2[n]−x[n−1]x[n+1]
总结:压力类的检测使用TEO;high-arousal和low-arousal的区分使用pitch和fundamental frequency;更细的区分,使用MFCC。
分类方法
- HMM
- GMM
- NN
- SVM
- MCS
multiple classifier systems有三种形式:hierarchical serial parallel。
挑战
- 没有非常powerful的特征
- N-way分类问题
参考
Survey onspeechemotionrecognition:Features,classificationschemes, and databases