![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SH Symposium Series on Speech
文章平均质量分 74
SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。 来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。
语音之家
这个作者很懒,什么都没留下…
展开
-
SH-SSS丨《ISSD: 基于迭代式语音分离的说话人日志系统》论文线上分享
SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。《ISSD: 基于迭代式语音分离的说话人日志系统》论文线上分享将于2022年11月15日19:00开始!原创 2022-11-11 10:46:10 · 543 阅读 · 0 评论 -
SH-SSS丨《端到端音视频说话人日志网络》论文线上分享
SH Symposium Series on Speech (SH SSS 2022) ,SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。 来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。原创 2022-11-06 15:18:48 · 125 阅读 · 0 评论 -
SH-SSS丨《端到端音视频说话人日志网络》论文线上分享
本文提出了一种基于端到端神经网络的音视频说话人日志方法。该音视频模型采用音频特征(例如 FBANK)、多说话人唇型(ROI)和多说话人 i-vector向量作为多模态输入。通过精心设计的端到端结构,所提出的方法可以很好处理重叠语音问题,并通过多模态信息准确地区分语音和非语音。我们在MISP数据集上进行了评估,所提出的方法在的开发/测试集上实现了10.1%/9.5%的分类错误率 (DER),而纯音频和纯视频系统的 DER 分别为27.9%/29.0%和14.6%/13.1%。来自AI语音技术领域的。原创 2022-11-03 16:44:36 · 475 阅读 · 1 评论 -
SH-SSS丨JSA-TOD:一种新型半监督对话系统,20%标注即接近全监督效果
本文介绍清华大学语音处理与机器智能实验室(Speech Processing and Machine Intelligence, SPMI)与中国移动研究院的联合工作 — JSA-TOD:一种基于联合随机近似(JSA)算法的新型半监督对话系统。该系统在Multi-WOZ2.1数据集上显著超越广泛使用的变分算法,仅利用20%标注即接近全监督效果。该工作已被对话领域的国际会议SIGDIAL 2022录用,论文的作者是蔡予诚、刘红、欧智坚、黄毅、冯俊兰。原创 2022-10-26 14:42:58 · 124 阅读 · 0 评论 -
SH-SSS丨面向有声读物的跨说话人语音风格迁移
该方法可以在给定的说话人缺乏目标朗读风格的真实数据情境下,灵活组合不同音色和风格并合成出整体风格一致的有声读物。特别地,全局模块的输入为多个相邻句子组成的块(chunk),以提高全局尺度建模的稳定性,并更好地建模读物的整体风格;该全局模块还通过两个平行分支,分别提取音色、整体风格类型的隐层表征,并基于可切换对抗分类器(Switchable adversarial classifier,SAC)进行音色表征与风格类型表征的解耦,以便后续灵活组合不同来源的表征,最终实现跨说话人的朗读风格迁移。原创 2022-10-08 14:21:26 · 668 阅读 · 0 评论 -
SH-SSS丨从人设到音色——基于说话人属性特征的语音合成
本文提出基于人设,也就是说话人属性特征的信息,来合成语音,达到个性化的声音定制的目的。引入说话人属性特征的概念,使得面向有声小说等应用的声音定制化语音合成成为可能,用户可以设定或修改人物属性特征,从而操纵合成语音的声音特点。除了要求合成丰富多样的语音之外,这些应用还特别期望合成的声音特点符合人们对角色的人物背景设定、外貌特征等的预期。而对于有声小说等应用,虽然没有人物画面,但是人们依旧希望依据角色的人设特点生成合适的声音,如大叔音、少年音等。是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。原创 2022-09-27 10:35:01 · 389 阅读 · 0 评论 -
SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征
SH Symposium Series on Speech (SH SSS 2022) SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。 来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。......原创 2022-08-11 17:04:29 · 973 阅读 · 0 评论 -
SH-SSS丨CUSIDE:分块、模拟未来、解码的流式语音识别新框架
为了在不损失识别精度的前提下实现低延迟语音识别,我们提出了一种基于分块、预测未来、解码(Chunking, Simulating future context and Decoding,CUSIDE)的低延迟语音识别框架。在该模型中,模型使用模拟的未来帧而不是真实未来帧作为未来信息,由此可以免除对未来信息的依赖,减小识别延迟。...原创 2022-08-26 18:10:13 · 813 阅读 · 0 评论