原文:Cross-corpus Acoustic Emotion Recognition with Multi-task Learning: Seeking Common Ground while Preserving Differences
主要内容
研究性别、情感域(音乐和语音)、语料库对跨库情感识别的影响
模型设计
the simple model
- 融合所有数据集,训练同一个模型
- 类似于 [Using multiple databases for training in emotion recognition: To unite or to vote?] 中的“pooling”策略
the seperate task model (ST)
- 为每个分类任务训练一个模型
- 类似于 [Using multiple databases for training in emotion recognition: To unite or to vote?] 中的“voting”策略
以上两种模型均使用SVM,加入l1正则化和l2正则化,并且假设特征是稀疏的。
the multi-task learning model (MTL)
认为所有因素是相关的
the group multi-task learning (GMTL)
假设可以将任务分为几组,并且只允许组内信息共享,数据驱动
the multi-task learning with knowledge-driven grouping model (MTL-KDG)
假设信息在组内共享,但是它基于域、性别或语料库等知识预先定义了组,而不是从数据中学习组,知识驱动
MTL和MTL-KDG均使用多任务特征学习算法;GMTL使用组多任务学习算法
Multi-Task Feature Learning
-
使用
L 1 , 2 L_{1, 2} L1,2正则化从任务中学习一个共同的特征表示,从而加强了任务间特征的稀疏性。该算法有两种设置:
-
(a) 特征学习(FL): L 1 , 2 L_{1, 2} L1,2正则化用于变换后的特征空间
min U , A ∑ t = 1 T ∑ i = 1 m t L ( y t i , ⟨ a t , U T x t i ⟩ ) + γ ∥ A ∥ 2 , 1 2 ( 1 ) \displaystyle \mathop{\min} _{U,A} \sum \limits _{t=1}^T \sum \limits _{i=1}^{m_t} L(y_{ti},\langle \mathbf {a_t},U^T \mathbf {x_{ti}} \rangle)+ \gamma \Vert A \Vert ^2_{2,1}~~~~~~~~~~(1) minU,At=1∑Ti=1∑mtL(yti,⟨at,UTxti⟩)+γ∥A∥2,12 (1)
权重矩阵 W W W的每个列向量 w t w_t wt表示每个任务的权值。 W = U A W=UA W=UA, U T U = I U^TU=I UTU=I, A A A是转换后特征空间的权重矩阵, a t a_t at是 A A A的列向量,即转换后的每个任务的权重。 U U U和 A A A都是从数据中学习得到。
式子的前半部分为损失项,后半部分为正则项
m t m_t mt为每个任务中训练实例, y i t ∈ { − 1 , 1 } y_{it} \in \lbrace -1,~1\rbrace yit∈{ −1, 1} 是第 i i i 个实例在 t t t 任务中的标签, x t i x_{ti} xti是 t t t任务中第 i i