情感识别概况

情绪分类

可以根据activation和valence将情绪简单分为两类,包括:

  • 声音大、快、高频能量大、pitch均值大而且分布范围广,比如joy/anger/fear
  • 相反,比如sadness

情绪的类别根据palette theory可以分为以下几类:
anger/fear/joy/sadness/surprise/disgust

公开数据集

这里写图片描述

特征

类别维度

global feature

在准确率和速度方面,全局特征更有优势,特征数量少。
全局特征的优势体现在区分high-arousal和low-arousal情绪,比如anger和sadness,在区分similar arousal的时候效果不好,比如区分同属于high-arousal的anger和joy;全局特征的另外一个缺点在于丢失了时域信息,在应用HMM和SVM的时候有一定的局限性.

local feature

具有时域相关性,可以采用hmm的建模方法;特征数量多,SVM分类样本充足;计算量大。
####segmental feature
基于音素的特征,每一个音素的发音对应一个特征,缺点在于需要音素级别的标注。还可以把每一个语音段作为一个特征。

特征类别

continuous features

包括

  • pitch
  • formants
  • energy
  • timing
  • articulation
    每一类可以有均值、极大极小值、标准差、范围等信息构成。但是在区分anger、fear、joy和surprise的时候有局限性。

qualitative features

  • voice level
  • voice pitch
  • phrase,phoneme,word and feature boundaries
  • temporal structures

spectral features

  • LPCC
  • MFCC
  • LFPC

TEO-based fetures

Teager-energy-operator,是一种适合压力检测的特征,TEO定义如下:
Φ { x [ n ] } = x 2 [ n ] − x [ n − 1 ] x [ n + 1 ] \Phi \{x[n]\}=x^2[n]-x[n-1]x[n+1] Φ{x[n]}=x2[n]x[n1]x[n+1]
总结:压力类的检测使用TEO;high-arousal和low-arousal的区分使用pitch和fundamental frequency;更细的区分,使用MFCC。

分类方法

  • HMM
  • GMM
  • NN
  • SVM
  • MCS
    multiple classifier systems有三种形式:hierarchical serial parallel。

挑战

  • 没有非常powerful的特征
  • N-way分类问题

参考

Survey onspeechemotionrecognition:Features,classificationschemes, and databases

后面的技术分享转移到微信公众号上面更新了,【欢迎扫码关注交流】

在这里插入图片描述

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值