多尺度特征的有效融合对于提高说话人验证性能至关重要。虽然大多数现有方法通过简单的操作(例如求和或连接)以逐层方式聚合多尺度特征。本文提出了一种新的架构——Enhanced Res2Net (ERes2Net),它结合了局部和全局特征融合技术来提高性能。
局部特征融合(LFF)融合单个残差块内的特征,提取局部信号。全局特征融合(GFF)以不同尺度的声学特征为输入,聚合全局信号。为了促进LFF和GFF的有效特征融合,ERes2Net架构采用了注意特征融合模块,取代了求和或连接操作。
![](https://i-blog.csdnimg.cn/blog_migrate/025aba9bce13786550d820ef6e40f828.png)
传统的Res2Net块
特征映射被分成s个特征映射子集,用xi表示,其中i∈{1,2。.., s}。每个特征子集 xi 具有相同的空间大小,但通道数为 1/s。x1 以外的每个 xi 都经过 3 × 3 卷积滤波器 Ki()。输出 y 可以表示为:
Res2Net 中的拆分和连接策略从多个时间和频率尺度缺乏有效的局部信息交互和全局视角。
ERes2Net中的局部特征融合(LFF)
LFF机制在相邻特征映射之间的残差连接中引入了注意特征融合机制,其关键思想是获得更细粒度的特征并加强局部信息交互。
![](https://i-blog.csdnimg.cn/blog_migrate/43bb18196368dc9b53f0e94c7efe7bcf.png)
通过注意特征融合(AFF)模块将前一组输出特征与另一组输入特征映射融合在一起。AFF 用于明确加强信息交互。LFF块中的分层融合结构可以增加模型的接收域,并整合不同通道的局部信息。ERes2Net块的输出推导如下:
其中 U (·) 表示 AFF 模块,用于计算相邻特征图的局部注意力权重。AFF 模块将相邻特征图 xi 和 yi-1 的串联作为输入。然后计算局部注意力权重 U 如下:
其中[·]表示沿通道维度的串联。W1 和 W2 分别是输出通道大小为 C/r 和 C 的逐点卷积。r 是通道缩减率(这项工作中设置 r=4)。BN是指批处理归一化。SiLU (·) 和 tanh(·) 分别代表 Sigmoid 线性单元 (SiLU) 和 tanh 激活函数。该模块旨在根据特征的重要性动态权重和组合特征,提高模型从输入信号中提取相关信息的能力。
ERes2Net中的全局特征融合(GFF)
更接近神经网络的底层,神经元的感受野越有限,反之亦然。GFF旨在通过调制自下而上路径中不同时间尺度的特征来增强全局特征交互。
首先,我们在每个 ERes2Net 阶段选择最后一层的多尺度特征 {Sj |j = 2, 3, 4},其中包含不同的时间分辨率。
然后我们使用 3 × 3 卷积核和对 ERes2Net 阶段输出的更高分辨率的特征图进行下采样和将通道维度扩展为2倍。
此外,我们将每个阶段输出连接起来,并通过 AFF 模块计算自下而上的注意力以调制 {Sj |j = 2, 3, 4}。AFF 模块从全局角度计算注意力权重。通过 AFF 模块的特征增强了下采样的特征图,如下所示:
其中 D(·) 表示下采样操作。Fj 代表自下而上路径中第 (j − 1) 个阶段输出和第 j 个阶段输出的融合。