SH-SSS丨面向有声读物的跨说话人语音风格迁移

SH Symposium Series on Speech (SH SSS 2022) ,SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。 来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。

分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

主题 Tittle

面向有声读物的跨说话人语音风格迁移

时间 Time

2022年10月11日 19:00 - 19:40

嘉宾 Author

 

李翔,清华大学深圳国际研究生院硕士生。主要研究方向为表现力语音合成,合作工作发表在Interspeech、ICASSP等语音领域旗舰会议中。

概述 Abstract

本文面向有声读物的自动生成,提出了一种跨说话人的语音朗读风格迁移方法。该方法可以在给定的说话人缺乏目标朗读风格的真实数据情境下,灵活组合不同音色和风格并合成出整体风格一致的有声读物。该方法基于多尺度的参考音频风格模型进行有声读物的语音风格建模:在局部尺度(local-scale)建模有声读物语音的韵律起伏(prosody);在全局尺度(global-scale)建模朗读者的音色(timbre)和有声读物的整体风格类型(genre)。特别地,全局模块的输入为多个相邻句子组成的块(chunk),以提高全局尺度建模的稳定性,并更好地建模读物的整体风格;该全局模块还通过两个平行分支,分别提取音色、整体风格类型的隐层表征,并基于可切换对抗分类器(Switchable adversarial classifier,SAC)进行音色表征与风格类型表征的解耦,以便后续灵活组合不同来源的表征,最终实现跨说话人的朗读风格迁移。


题 目 Tittle:面向有声读物的跨说话人语音风格迁移

期 刊 Journal & Comments:Proc. Interspeech 2022

作 者 Authors:李翔,宋长河,魏宪豪,吴志勇,贾珈,蒙美玲

论文地址 Url:https://www.isca-speech.org/archive/pdfs/interspeech_2022/li22ca_interspeech.pdf

论文代码 Code:Towards Cross-speaker Reading Style Transfer on Audiobook Dataset | Accepted to INTERSPEECH 2022

 

 议程 Program Overview

参与方式 Joining

直播将通过CSDN直播间进行直播

手机端、PC端可同步观看

 SH-SSS丨面向有声读物的跨说话人语音风格迁移-CSDN直播

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值