安徽大学生物信息感知与人机交互研究所(IIP-HCI)范存航副教授、吕钊教授团队的论文《DBPNet: Dual-Branch Parallel Network with Temporal-Frequency Fusion for Auditory Attention Detection》被人工智能领域国际顶级会议 IJCAI 2024(CCF A类会议)录用。
倪钦科(本科生)、张宏玉和范存航为论文的共同一作,范存航和吕钊为通讯作者。
代码地址:
https://github.com/fchest/DBPNet
鸡尾酒会场景指在多人说话的环境中,需要从众多声音中分辨出并专注于某个特定的说话人的声音。这种场景下的挑战在于,存在多个声音源时,如何有效地分离和提取出听者感兴趣的目标声音源。这就是为什么需要解决鸡尾酒会场景问题。听觉注意力检测(AAD)技术提供了一种解决方案,它利用大脑信号来模拟人类听觉系统中的“注意力”过程,通过这种方式,可以识别并定位在多人说话环境中哪个说话人引起了听者的关注,即确定当前的“目标”说话人。这对于改善听障人士的听觉感知能力、提升听力辅助设备的性能以及开发更智能的语音交互系统都具有重要意义。该论文提出了一种时频融合的双分支并行网络实现基于EEG的高性能听觉注意检测,该方法在显著提高了听觉注意力的解码精度的同时,减少了训练参数,有助于推动AAD任务的未来研究。
传统的AAD任务,通常依赖线性方法来处理脑电信号。但是,这些线性方法难以应对非线性映射关系,导致需要更长的决策时间窗口。以往的研究已经证明,每个频带都包含着不同的空间特征,对应着人体不同的状态。因此,有些研究将目光投向了脑电信号的频带特征。从频率带中提取微分熵(DE)值,并将其投影到二维拓扑图上,利用其作为特征进行解码,并取得了不错的效果。然而,这种方法忽略了脑电信号动态变化的时间特征。
而与之相对应的是,一些研究则关注脑电信号的时间特性。直接使用CNN来解码时域特征,考虑到脑电信号本质上是时间序列数据,该类方法也取得了很好的结果。尽管脑电时间序列信号包含丰富的时间变化信息,但它们在时间域中有限的频域特征与人类的空间注意力关联性较弱。因此,有必要融合时域和频域,以获得更全面的特征。然而,目前还没有研究探索AAD中时域和频域特征的融合。无论是缺少了时域还是频域,脑电特征就无法得到全面的表示,这意味着它的时间变化或频率信息无法同时被考虑。
图 1本文提出的DBPNet模型架构
为了解决这一问题,本文提出了一种新颖的时频融合的双分支并行网络(DBPNet)用于听觉注意力检测,它融合了时域和频域信息,并采用特征融合来同时利用时间变化和光谱-空间特征。具体来说,我们的网络通过两个分支和一个模块实现:(1)时间注意分支。时间注意分支能够捕捉脑电时间序列信号中时间变化的动态信息。(2)频率残差分支。频率残差分支采用残差卷积来从多频带脑电信号中提取频率特征。(3)特征融合与分类器。这两个分支被融合起来,同时考虑时域和频域特征,并将其输入到分类器中,分类器通过将融合特征映射到标签空间来预测方向类别标签。
此外,为了评估所提出模型在听觉注意力检测中的解码性能,我们将DBPNet与其他AAD模型在三个数据集 (KUL, DTU以及MM-AAD) 中,针对三个决策窗口大小(0.1s, 1s, 2s)进行了详细的对比,如下表所示。对于开放获取的模型,我们复现了结果。对于未开放的模型,我们引用了对应论文中的结果。
表1在KUL, DTU和MM-AAD三个数据集中,不同决策窗口大小下不同模型的听觉注意力解码精度
在我们的消融实验中,我们通过比较DBPNet和没有进行特征融合的单分支网络 (TABNet和FRBNet) 来全面评估DBPNet的模型性能。消融实验同样在三个数据集中进行比较并针对三个决策窗口大小进行比较,实验结果如下表所示。实验结果表明,DBPNet相较于未进行特征融合的单分支网络TABNet和FRBNet均有不同程度的提升,这表明了基于时频域特征融合策略的有效性。
图 2在DTU数据集中,不同分支与特征融合后的双分支DBPNet的听觉注意力精度箱线图。左图为TABNet和DBPNet的精度对比。右图为FRBNet和DBPNet的精度对比。
表2在KUL, DTU和MM-AAD三个数据集中,不同决策窗口大小下单分支TABNet, FRBNet和双分支DBPNet的听觉注意力解码精度
除此之外,研究团队还对提出的DBPNet模型和两个开源模型(SSF-CNN和MBSSFCC)进行了可训练参数的比较。实验结果表明,DBPNet的可训练参数量远小于前两个开源模型,极大减少了计算开销。
表3 DBPNet, SSF-CNN和MBSSFCC的可训练参数对比
综上,本文提出了一种新颖的时频融合的双分支并行网络 (DBPNet)。该模型采用双分支方法,分别从时域和频域并行提取特征。对于时间注意分支,通过Transformer Encoder,从脑电时间序列信号中提取时间变化信息作为时域特征。对于频率残差分支,我们采用多频带融合残差块,从多频带脑电信号中提取频域特征。最后,通过时频域特征的融合,我们可以获得包含时间变化和频率信息的脑电特征,然后得到分类结果。我们在三个数据集KUL、DTU和MM-AAD上进行了评估。实验结果表明,该方法的听觉注意力解码精度达到SOTA水平,可训练参数数量也极大减少。实验结果表明,DBPNet有效地实现了时频域特征的提取和融合。研究团队认为,时频域特征融合能够有效提高听觉注意力解码精度,能够有效推动听觉注意力解码的发展。
—— End ——
仅用于学术分享,若侵权请留言,即时删侵!
点击投稿:脑机接口社区学术新闻投稿指南
加入社群
欢迎加入脑机接口社区交流群,
探讨脑机接口领域话题,实时跟踪脑机接口前沿。
加微信群:
添加微信:RoseBrain【备注:姓名+行业/专业】。
加QQ群:913607986
欢迎来稿
1.欢迎来稿。投稿咨询,请联系微信:RoseBrain
点击投稿:脑机接口社区学术新闻投稿指南
2.加入社区成为兼职创作者,请联系微信:RoseBrain
一键三连「分享」、「点赞」和「在看」
不错每一条脑机前沿进展 ~