SH-SSS丨《端到端音视频说话人日志网络》论文线上分享

语音之家

已于 2022-11-10 16:23:35 修改

阅读量145

点赞数

分类专栏： SH Symposium Series on Speech 文章标签：人工智能

于 2022-11-06 15:18:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48827824/article/details/127716027

版权

SH Symposium Series on Speech 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

SH Symposium Series on Speech (SH SSS 2022) ，SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。来自AI语音技术领域的优秀论文作者、专家学者，用最精炼的表达来解读最新的高质量论文。

分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

主题 Tittle

端到端音视频说话人日志网络

时间 Time

2022年11月8日 19:00 - 19:45

嘉宾 Author

何茂奎：中国科学技术大学语音及语言信息处理国家工程研究中心博士生，主要研究方向为纯音频及音视频说话人日志。合作文章曾发表于INTERSPEECH、ICASSP等语音领域会议。

概述 Abstract

本文提出了一种基于端到端神经网络的音视频说话人日志方法。该音视频模型采用音频特征（例如 FBANK）、多说话人唇型（ROI）和多说话人 i-vector向量作为多模态输入。同时输出多个说话人的帧级语音/非语音概率。通过精心设计的端到端结构，所提出的方法可以很好处理重叠语音问题，并通过多模态信息准确地区分语音和非语音。i-vector是解决由视觉模态错误（例如唇部遮挡或检测不可靠）引起的音视频同步问题的关键点。该音视频模型对视觉模态缺失同样具有鲁棒性。我们在MISP数据集上进行了评估，所提出的方法在的开发/测试集上实现了10.1%/9.5%的分类错误率 (DER)，而纯音频和纯视频系统的 DER 分别为27.9%/29.0%和14.6%/13.1%。

题目 Tittle

中文：端到端音视频说话人日志网络

英文：End-to-End Audio-Visual Neural Speaker Diarization

收录会议 Source Title：INTERSPEECH 2022

作者 Authors：何茂奎，杜俊，李锦辉

论文地址 Url：https://www.isca-speech.org/archive/pdfs/interspeech_2022/he22c_interspeech.pdf

论文代码 Code：Multimodal Information Based Speech Processing (MISP) Challenge 2022

议程 Program Overview

参与方式 Joining

直播将通过CSDN进行直播，手机端、PC端可同步观看

👇

SH-SSS丨《端到端音视频说话人日志网络》论文线上分享-CSDN直播

活动奖品

11月8日在直播间，为大家准备3件 SpeechHome 主题T恤，观看直播互动即可抽取。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。