结合双流网络和双向五元组损失的跨人脸width=11,height=5,dpi=110语音匹配

最新推荐文章于 2024-08-09 22:24:25 发布

罗伯特之技术屋

最新推荐文章于 2024-08-09 22:24:25 发布

阅读量92

点赞数

分类专栏：大数据及数据管理（治理）专栏文章标签：人工智能语音识别

本文链接：https://blog.csdn.net/weixin_57147647/article/details/129098401

版权

大数据及数据管理（治理）专栏专栏收录该内容

179 篇文章 14 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

该研究提出了一种结合双流网络和双向五元组损失的跨人脸-语音特征学习框架，用于解决跨模态匹配问题。通过多模态加权残差网络挖掘模态间关联，双向五元组损失提高数据利用率和模型泛化性能，ID损失保证可分性。实验表明，这种方法在多个跨人脸-语音匹配任务上取得了显著的效果提升。

摘要由CSDN通过智能技术生成

摘要面部视觉信息和语音信息是人机交互过程中最为直接和灵活的方式，从而基于智能方式的人脸和语音跨模态感知吸引了国内外研究学者的广泛关注.然而，由于人脸-语音样本的异质性以及语义鸿沟问题，现有方法并不能很好地解决一些难度比较高的跨人脸-语音匹配任务.提出了一种结合双流网络和双向五元组损失的跨人脸-语音特征学习框架，该框架学到的特征可直接用于4种不同的跨人脸-语音匹配任务.首先，在双流深度网络顶端引入一种新的权重共享的多模态加权残差网络，以挖掘人脸和语音模态间的语义关联；接着，设计了一种融合多种样本对构造策略的双向五元组损失，极大地提高了数据利用率和模型的泛化性能；最后，在模型训练中进行ID分类学习，以保证跨模态表示的可分性.实验结果表明，与现有方法相比，能够在4个不同跨人脸-语音匹配任务上取得效果的全面提升，某些评价指标效果提升近5%.

关键词人脸-语音关联；跨模态感知；双流网络；双向五元组损失；加权残差网络

语音和视觉信息是人们相互交流的重要载体，也是人机交互过程中最为直接和灵活的方式.心理学中著名的“麦格克效应”(McGurk effect)[1]表明，大脑在感知语音的过程中，人脸信息和语音信息会相互作用.同时，大量神经认知科学的研究表明，人脸信息和语音信息有着相同的神经认知通路[2].在日常生活中，当人们在给好友打语音电话时，虽然只接收到了对方的语音信息，但脑海中会不自觉地浮现出对方的人脸信息，即我们的大脑可以自动地将接收到的语音信息与之前已经存储好的人脸信息进行语义关联.

上述现象和研究表明，个体人脸信息和语音信息之间是存在明显关联特性的.受此启发，人们已逐渐认识到语音特征与视觉特征之间关联的重要性&

了解本专栏

超级会员免费看

罗伯特之技术屋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
结合双流网络和双向五元组损失的跨人脸width=11,height=5,dpi=110语音匹配

本文用表示人脸数据，表示语音数据集，其中，表示第i张人脸图片，表示第i条语音数据，N表示样本总数.Xf和Xv有着共同的标签集表示类别总数.进一步，人脸子网络和语音子网络分别用φf(·)和φv(·)表示，fi=φf()表示人脸图片对应的高层次人脸特征表示，表示语音数据对应的高层次语音特征表示.
复制链接

扫一扫