今年的interspeech2017有两个section是关于情感的: Emotion Recognition 和 Emotion Modeling,共有12篇文章,best paper 提名的是关于多任务学习的文章。今年的interspeech主要是以多任务学习为主,占据了半壁江山。其余为一篇利用对抗自编码做压缩;一篇端到端;一篇离散转回归问题求解;一篇对话中的情感识别;一篇探讨不同的CNN对于问题的影响;一篇GMM用于情感识别的文章【没有仔细看】;
首先对所有论文进行总结,可以看出多任务学习是今年的主流
多任务文章【利用不同任务之间的相关性,提示系统性能】
Attention + 多任务【离散和连续标签都预测】
模型结构没什么好说的,这种可以清晰看见感受野的绘图方式,还是值得学习的。
输入:音频特征,用openSMILE提取;输入帧级别的特征,没有统计方程。【作者认为原始波形会使得模型输入维度太高,容易过拟合,因此不用raw wave 端到端的方法】
输出:多任务,连续+离散 多任务学习。
数据库: IEMOCAP,得到目前state-of-art的结果,63.85%
目标:分类,使得平均准确率最高。
这是best paper候选文章。作者提出了多任务学习,将三个任务一起训练。并加入主次任务,体现在loss上面。主要观点:主任务和次任务有相关性。【feature work: GAN+多任务??】【多任务体现在多输出上面】
特征:6373 维度 Interspeech 2013特征。
数据集:MSP-PADCAST【自己收集】, USC-IEMOCAP,MSP-IMPROV
模型:MTL2好于MTL1
损失函数:训练过程中,是使得目标CCC最大,两个次任务来辅助主任务取得好成绩。
】