基于正则化图神经网络的脑电情绪识别
一、 引言(Introduction)
论文动机
现有的基于脑电图的情绪识别方法大多不能很好地解决以下三个方面的问题: 1)脑电图信号的拓扑结构没有被有效地利用来学习更多的有鉴别性的脑电图特征然而,大多数方法需要在头皮上对脑电图通道进行2D表示,这可能会在flatten过程中造成信息丢失,因为通道实际上是在3D空间中排列的; 2)不同受试者的脑电图信号差异较大,不利于训练分类器的泛化; 3)参与者在观看引发情绪的刺激时,可能并不总是产生与刺激一致的预期情绪。目前研究中,在基于脑电图的情绪识别方面,还没有人试图解决噪音标签的问题。作者提出了一个正则化的图神经网络(RGNN)来解决上述三个问题。
论文工作
脑电信号中的每个通道看作是图形中的一个节点。RGNN模型扩展了简单图卷积网络(SGC),利用了脑电图信号的拓扑结构,即根据脑网络组织的经济性,作者提出了一个符合生物原理的稀疏邻接矩阵来捕捉局部和全局的通道间关系。局部通道间关系连接附近的神经元群,可以显示解剖学上的连通性。整体的通道间关系连接左右脑半球之间的神经元群,可以揭示与情绪相关的功能连接。此外,作者提出一个节点域对抗训练(NodeDAT)来正则化图模型,以更好地解决跨被试分类场景,并且还提出了一种基于情绪感知的分布学习(EmotionDL)方法来解决数据集中的噪声标签问题。
二、RGNN知识基础
###简单图卷积网络(Simple Graph Convolution Network ,SGC)
给定图
G
=
(
V
,
E
)
\mathcal{G}=(\mathcal{V}, \mathcal{E})
G=(V,E),
V
\mathcal{V}
V表示节点集,
E
\mathcal{E}
E表示边集。
X
∈
R
n
×
d
\mathbf{X} \in \mathbb{R}^{n \times d}
X∈Rn×d表示特征矩阵,
n
n
n表示节点的数目,
d
d
d 输入特征的维度。
E
\mathcal{E}
E可以用加权邻接矩阵
A
∈
R
n
×
n
\mathbf{A} \in \mathbb{R}^{n \times n}
A∈Rn×n表示。 一般情况下,GNNs对输入 $\mathbf{X} $学习一个特征变换函数,生成输出
Z
∈
R
n
×
d
\mathbf{Z} \in \mathbb{R}^{n \times d}
Z∈Rn×d,
d
d
d表示输出的维度。特征转换可以写成:
H
l
+
1
=
f
(
H
l
,
A
)
\mathbf{H}^{l+1}=f\left(\mathbf{H}^{l}, \mathbf{A}\right)
Hl+1=f(Hl,A),这里
l
=
0
,
1
,
…
,
L
−
1
,
L
l=0,1, \ldots, L-1, L
l=0,1,…,L−1,L,
H
0
=
X
,
H
L
=
Z
\mathbf{H}^{0}=\mathbf{X}, \mathbf{H}^{L}=\mathbf{Z}
H0=X,HL=Z。
GCN(graph convolution network)的方法如公式所示: f ( H l + 1 ) = σ ( D − 1 2 A D 1 2 H l W l ) f\left(\mathbf{H}^{l+1}\right)=\sigma\left(\mathbf{D}^{-\frac{1}{2}} \mathbf{A} \mathbf{D}^{\frac{1}{2}} \mathbf{H}^{l} \mathbf{W}^{l}\right) f(Hl+1)=σ(D−21AD21HlWl),其中 D \mathbf{D} D表示 A \mathbf{A} A 的对角度矩阵,规范化邻接矩阵 D − 1 2 A D 1 2 \mathbf{D}^{-\frac{1}{2}} \mathbf{A} \mathbf{D}^{\frac{1}{2}} D−21AD21可以防止 H \mathbf{H} H变得过大。SGC方法消除非线性函数 σ ( ) \sigma\left(\right) σ()和将所有层之间的所有线性变换 W l \mathbf{W}^{l} Wl重新参数化为一个线性变换 W \mathbf{W} W,如下所示: Z = H L = S H L − 1 W L − 1 = … = S L X W \mathbf{Z}=\mathbf{H}^{L}=\mathbf{S H}^{L-1} \mathbf{W}^{L-1}=\ldots=\mathbf{S}^{L} \mathbf{X} \mathbf{W} Z=HL=SHL−1WL−1=…=SLXW,这里 S = D − 1 2 A D 1 2 , \mathbf{S}=\mathbf{D}^{-\frac{1}{2}} \mathbf{A D}^{\frac{1}{2}}, S=D−21AD21, W = W L − 1 W L − 2 … W 0 \mathbf{W}=\mathbf{W}^{L-1} \mathbf{W}^{L-2} \ldots \mathbf{W}^{0} W=WL−1WL−2…W0。本质上SGC计算拓扑感知的线性变换 X ^ = S L X \hat{\mathbf{X}}=\mathbf{S}^{L} \mathbf{X} X^=SLX,最后一个线性变换 Z = X ^ W \mathbf{Z}=\hat{\mathbf{X}} \mathbf{W} Z=X^W。
**谱图卷积(**Spectral Graph Convolution)
KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲ ̲{G}表示为无向连接图,其拉普拉斯矩阵定义为
L = D − A L = D - A L=D−A
L L L 是laplacian矩阵, D D D是顶点的度矩阵(对角矩阵),对角线上的元素 D i i = ∑ j A i j D_{i i}=\sum_{j} A_{i j} Dii=∑jAij依次为各个顶点的度, W W W是图的邻接矩阵。归一化的定义是 :
L = I n − D − 1 / 2 A D − 1 / 2 = U Λ U T L = {I_n} - {D^{ - 1/2}}A{D^{ - 1/2}} = U\Lambda {U^T} L=In−D−1/2AD−1/2=UΛUT
其中,拉普拉斯矩阵 L L L被傅里叶基 U = [ u 0 , … , u n − 1 ] ∈ n × n U = \left[ {{u_0}, \ldots ,{u_{n - 1}}} \right] \in {^{n \times n}} U=[u0,…,un−1]∈n×n对角化,这里, Λ = d i a g ( [ λ 0 , … , λ n − 1 ] ) ∈ n × n \Lambda = {\mathop{\rm diag}\nolimits} \left( {\left[ {{\lambda _0}, \ldots ,{\lambda _{n - 1}}} \right]} \right) \in {^{n \times n}} Λ=diag([λ0,…,λn−1])∈n×n, I n {I_n} In是单位矩阵。
给定空间信号 x ∈ R n × d x \in \mathbb{R}^{n \times d} x∈Rn×d它的图傅里叶变换定义为 x ^ = U T x \hat{x}=U^{T} x x^=UTx,逆变换为 $x=U $ 。在图 G {G} G上, x x x和 y y y两个信号的卷积表示为:
x ∗ G y = U ( ( U T x ) ⊙ ( U T y ) ) x{*_{G}}y = U\left( {\left( {{U^T}x} \right) \odot \left( {{U^T}y} \right)} \right) x∗Gy=U((UTx)⊙(UTy))
其中,$\odot $表示hadamard product。信号 x x x被 g θ ( ) {g_\theta }() gθ()滤波输出 y y y可以表示为:
y = g θ ( L ) x = g θ ( U Λ U T ) x = U g θ ( Λ ) U T x y = {g_\theta }(L)x = {g_\theta }\left( {U\Lambda {U^T}} \right)x = U{g_\theta }(\Lambda ){U^T}x y=gθ(L)x=gθ(UΛUT)x=Ugθ(Λ)UTx
其中,
g
θ
(
Λ
)
{g_\theta }(\Lambda )
gθ(Λ)可以表示为:
g
θ
(
Λ
)
=
[
g
(
λ
0
)
⋯
0
⋮
⋱
⋮
0
⋯
g
(
λ
N
−
1
)
]
g_{\theta}(\Lambda)=\left[\begin{array}{ccc} g\left(\lambda_{0}\right) & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & g\left(\lambda_{N-1}\right) \end{array}\right]
gθ(Λ)=⎣⎢⎡g(λ0)⋮0⋯⋱⋯0⋮g(λN−1)⎦⎥⎤
采用
K
K
K阶切比雪夫多项式(Chebyshev polynomials)来代替卷积核的图傅里叶变换
g
θ
(
Λ
)
{g_\theta }(\Lambda )
gθ(Λ) 以简化计算复杂度。基于
K
K
K阶切比雪夫多项式, 可以
g
θ
(
Λ
)
{g_\theta }(\Lambda )
gθ(Λ) 近似为:
g θ ′ ( Λ ) ≈ ∑ k = 0 K θ k ′ T k ( Λ ~ ) {g_{{\theta ^\prime }}}(\Lambda ) \approx \sum\limits_{k = 0}^K {\theta _k^\prime {\kern 1pt} } {T_k}(\tilde \Lambda ) gθ′(Λ)≈k=0∑Kθk′Tk(Λ~)
其中, θ k ′ {\theta _k^\prime } θk′为切比雪夫多项式系数, Λ ~ = 2 Λ / λ m a x − I N \tilde \Lambda = 2\Lambda /{\lambda _{max}} - {I_N} Λ~=2Λ/λmax−IN是标准化的 Λ \Lambda Λ标准化后,其对角线元素取值在[-1,1], λ m a x \lambda _{max} λmax是 Λ ~ \tilde \Lambda Λ~中最大的元素, I N {I_N} IN是N阶单位阵。 T k ( x ) {T_k}(x) Tk(x)可按以下递推公式计算得到 { T 0 ( x ) = 1 , T 1 ( x ) = x T k ( x ) = 2 x T k − 1 ( x ) − T k − 2 ( x ) , k ≥ 2 \left\{\begin{array}{l}T_{0}(x)=1, T_{1}(x)=x \\T_{k}(x)=2 x T_{k-1}(x)-T_{k-2}(x), \quad k \geq 2\end{array}\right. {T0(x)=1,T1(x)=xTk(x)=2xTk−1(x)−Tk−2(x),k≥2
则对信号 的图滤波操作可以写为: g θ ′ ( Λ ) ≈ ∑ k = 0 K θ k ′ T k ( Λ ~ ) g_{\theta^{\prime}}(\Lambda) \approx \sum_{k=0}^{K} \theta_{k}^{\prime} T_{k}(\tilde{\Lambda}) gθ′(Λ)≈k=0∑Kθk′Tk(Λ~)一、
三、**论文方法(**Methods)
1. 邻接矩阵 (Adjacency Matrix)
图1 62 EEG通道图(灰色对称通道通过红色虚线全局连接)
作者在邻接矩阵中初始化局部通道间关系,如下所示: A i j = exp ( − d i j 2 δ 2 ) \mathbf{A}_{i j}=\exp \left(-\frac{d_{i j}}{2 \delta^{2}}\right) Aij=exp(−2δ2dij),其中 d i j , i , j = 1 , 2 , … , n d_{i j,} i, j=1,2, \dots, n dij,i,j=1,2,…,n表示通道 i , j {i ,j} i,j间的物理距离, δ \delta δ代表一个稀疏超参数衰变率可以控制通道之间的联系。
图1描述了SEED和SEED-IV的全局连接关系,为了利用差分不对称信息,我们将 A \mathbf{A} A初始化全局通道间关系到[-1,0]如下: A i j = A i j − 1 \mathbf{A}_{i j}=\mathbf{A}_{i j}-1 Aij=Aij−1,邻接矩阵 A \mathbf{A} A旨在表示结合局部解剖连接和与情绪相关的整体功能连接的大脑网络。
2. RGNN
图2 RGNN整体框架
图2表示整体RGNN框架,结合NodeDAT和EmotionDL,总体损失函数计算如下: Φ ′ ′ = Φ ′ + Φ D \Phi^{\prime \prime}=\Phi^{\prime}+\Phi_{D} Φ′′=Φ′+ΦD, Φ ′ , Φ D \Phi^{\prime}, \Phi_{D} Φ′,ΦD分别为节点域对抗训练与情绪感知分布学习的损失函数。其伪代码如Algorithm 1所示。
节点域对抗训练(NodeDAT)
X S ∈ R N × n × d \mathbf{X}^{S} \in \mathbb{R}^{N \times n \times d} XS∈RN×n×d表示给定源域数据, X T ∈ R N × n × d \mathbf{X}^{T} \in \mathbb{R}^{N \times n \times d} XT∈RN×n×d表示未标记的目标域数据。领域分类器的目标是最小化以下两个二进制交叉熵损失的总和: Φ D = − ∑ i = 1 N ∑ j = 1 n ( log ( p D ( 0 ∣ X i S ) j + log ( p D ( 1 ∣ X i T ) j ) ) \Phi_{D}=-\sum_{i=1}^{N} \sum_{j=1}^{n}\left(\log \left(p_{D}\left(0 | \mathbf{X}_{i}^{S}\right)_{j}+\log \left(p_{D}\left(1 | \mathbf{X}_{i}^{T}\right)_{j}\right)\right)\right. ΦD=−i=1∑Nj=1∑n(log(pD(0∣XiS)j+log(pD(1∣XiT)j))
域分类器的目标是将源数据分类为0,将目标数据分类为1。 点的域概率可以表示为: p D ( 0 ∣ X i S ) ) j = softmax 0 ( σ ( Z i j S ) W D ) p D ( 1 ∣ X i T ) ) j = softmax 1 ( σ ( Z i j T ) W D ) \begin{array}{l}\left.p_{D}\left(0 | \mathbf{X}_{i}^{S}\right)\right)_{j}=\operatorname{softmax}_{0}\left(\sigma\left(\mathbf{Z}_{i j}^{S}\right) \mathbf{W}^{D}\right) \\ \left.p_{D}\left(1 | \mathbf{X}_{i}^{T}\right)\right)_{j}=\operatorname{softmax}_{1}\left(\sigma\left(\mathbf{Z}_{i j}^{T}\right) \mathbf{W}^{D}\right)\end{array} pD(0∣XiS))j=softmax0(σ(ZijS)WD)pD(1∣XiT))j=softmax1(σ(ZijT)WD)
域分类器利用一个梯度反转层(GRL)来在反向传播期间反转域分类器的梯度。
情绪感知分布学习(EmotionDL)
作者转换每个训练样本标签 Y i ∈ { 0 , 1 , … , C − 1 } \mathbf{Y}_{i} \in\{0,1, \ldots, C-1\} Yi∈{0,1,…,C−1}转化为所有类的先验概率分布 Y ^ i ∈ R α \hat{\mathbf{Y}}_{i} \in \mathbb{R}^{\alpha} Y^i∈Rα。在SEED数据集中,有积极、中性和消极三类情绪,并有相应的类指标分别是0 1 2,将 Y \mathbf{Y} Y转换如下: Y ^ i = { ( 1 − 2 ϵ 3 , 2 ϵ 3 , 0 ) , Y i = 0 ( ϵ 3 , 1 − 2 ϵ 3 , ϵ 3 ) , Y i = 1 ( 0 , 2 ϵ 3 , 1 − 2 ϵ 3 ) , Y i = 2 \hat{\mathbf{Y}}_{i}=\left\{\begin{array}{ll}\left(1-\frac{2 \epsilon}{3}, \frac{2 \epsilon}{3}, 0\right), & \mathbf{Y}_{i}=0 \\ \left(\frac{\epsilon}{3}, 1-\frac{2 \epsilon}{3}, \frac{\epsilon}{3}\right), & \mathbf{Y}_{i}=1 \\ \left(0, \frac{2 \epsilon}{3}, 1-\frac{2 \epsilon}{3}\right), & \mathbf{Y}_{i}=2\end{array}\right. Y^i=⎩⎨⎧(1−32ϵ,32ϵ,0),(3ϵ,1−32ϵ,3ϵ),(0,32ϵ,1−32ϵ),Yi=0Yi=1Yi=2
在SEED-IV中,有四个类:中性、悲伤、恐惧和快乐,分别对应的类指标为0、1、2和3,将 Y \mathbf{Y} Y转换如下: Y ^ i = { ( 1 − 3 ϵ 4 , ϵ 4 , ϵ 4 , ϵ 4 ) , Y i = 0 ( ϵ 3 , 1 − 2 ϵ 3 , ϵ 3 , 0 ) , Y i = 1 ( ϵ 4 , ϵ 4 , 1 − 3 ϵ 4 , ϵ 4 ) , Y i = 2 ( ϵ 3 , 0 , ϵ 3 , 1 − 2 ϵ 3 ) , Y i = 3 \hat{\mathbf{Y}}_{i}=\left\{\begin{array}{ll}\left(1-\frac{3 \epsilon}{4}, \frac{\epsilon}{4}, \frac{\epsilon}{4}, \frac{\epsilon}{4}\right), & \mathbf{Y}_{i}=0 \\ \left(\frac{\epsilon}{3}, 1-\frac{2 \epsilon}{3}, \frac{\epsilon}{3}, 0\right), & \mathbf{Y}_{i}=1 \\ \left(\frac{\epsilon}{4}, \frac{\epsilon}{4}, 1-\frac{3 \epsilon}{4}, \frac{\epsilon}{4}\right), & \mathbf{Y}_{i}=2 \\ \left(\frac{\epsilon}{3}, 0, \frac{\epsilon}{3}, 1-\frac{2 \epsilon}{3}\right), & \mathbf{Y}_{i}=3\end{array}\right. Y^i=⎩⎪⎪⎨⎪⎪⎧(1−43ϵ,4ϵ,4ϵ,4ϵ),(3ϵ,1−32ϵ,3ϵ,0),(4ϵ,4ϵ,1−43ϵ,4ϵ),(3ϵ,0,3ϵ,1−32ϵ),Yi=0Yi=1Yi=2Yi=3
其中, ϵ ∈ [ 0 , 1 ] \epsilon \in [0,1] ϵ∈[0,1]表示在训练标签中控制噪音水平的超参数。 在得到转换后的类分布 Y \mathbf{Y} Y 后,我们的模型可以通过最小化以下Kullback-Leibler (KL)散度来进行优化: Φ ′ = ∑ i = 1 N K L ( p ( Y ∣ X i , θ ) , Y ^ i ) + α ∥ A ∥ 1 \Phi^{\prime}=\sum_{i=1}^{N} \mathrm{KL}\left(p\left(\mathbf{Y} | \mathbf{X}_{i}, \theta\right), \hat{\mathbf{Y}}_{i}\right)+\alpha\|\mathbf{A}\|_{1} Φ′=∑i=1NKL(p(Y∣Xi,θ),Y^i)+α∥A∥1。
四、 结果(Results)
为了评估本文方法的性能,作者在SEED 与SEED-IV脑电图数据集上进行了subject-dependent和subject-independent实验。实验结果如表1与表2所示。RGNN模型在两个数据集上都取得了优于所有基线的性能,包括使用所有频带的DE特征时的最优良的BiHDM模型。除了提出的两个正则化器外,主要的性能改进可以归结于两个因素: 1)邻接矩阵包含了左右半球之间的全局通道间不对称关系; 2)我们的模型通过扩展SGC来减少过拟合的问题,这比DGCNN中使用的ChebNet简单得多。
图3邻接矩阵对角元素热力图
图4 邻接矩阵A中电极之间的前10个边权值
图3中前额叶、顶叶和枕叶区域有强烈的活动,表明这些区域可能与大脑的情感处理有很强的关系。图4显示了邻接矩阵A中,边权值最大的前10个通道之间的连接。注意,在学习A之后,所有的全局连接仍然是最强的连接,这再次证明了全局通道间关系对于情感识别是必不可少的。
五、结论(Conclusion)
。图4显示了邻接矩阵A中,边权值最大的前10个通道之间的连接。注意,在学习A之后,所有的全局连接仍然是最强的连接,这再次证明了全局通道间关系对于情感识别是必不可少的。
五、结论(Conclusion)
本文提出了一种基于脑电图信号的正则化图形神经网络。我们的模型在生物学上支持捕获本地和全球渠道间的关系。此外,我们提出了两个正则化器,即NodeDAT和EmotionDL,以提高我们的模型对跨被试情绪识别的鲁棒性。模型分析表明,作者提出的生物支持邻接矩阵和两个正则化器对模型性能做出显著的贡献。对神经元活动的研究表明,前额叶、顶叶和枕叶可能是情感识别中信息量最大的区域。