SH-SSS丨从人设到音色——基于说话人属性特征的语音合成

本文链接：https://blog.csdn.net/weixin_48827824/article/details/127103005

这篇论文探讨了如何利用说话人的属性特征（如年龄、性别、人格等）进行个性化语音合成。研究者提出了一种方法，允许在有声小说等应用中根据人物设定生成合适的语音，增强虚拟角色的声音一致性与可定制性。这种方法提高了语音合成的可解释性和应用范围。

摘要由CSDN通过智能技术生成

SH Symposium Series on Speech (SH SSS 2022) ，SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。来自AI语音技术领域的优秀论文作者、专家学者，用最精炼的表达来解读最新的高质量论文。

分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

主题-Tittle

从人设到音色——基于说话人属性特征的语音合成

嘉宾-Author

杨智涵，清华大学深研院硕士生，主要研究方向为多模态语音合成，脸像相关语音合成。合作文章曾发表于AAAI、IJCAI、IJCNN等国际会议。

概述-Abstract

个性化语音生成展现出了巨大的应用前景，如虚拟人语音合成、自动配音等。除了要求合成丰富多样的语音之外，这些应用还特别期望合成的声音特点符合人们对角色的人物背景设定、外貌特征等的预期。例如，在虚拟新闻主播这类应用中，人们通常希望其声音具有沉稳庄重的特点，以保证视听觉两个模态所传达的说话人身份特质的一致性；而对于有声小说等应用，虽然没有人物画面，但是人们依旧希望依据角色的人设特点生成合适的声音，如大叔音、少年音等。

纵观各类应用场景，这些说话人具有自己独特的“人设”，是指导语音合成的参考依据。因此，本文提出基于人设，也就是说话人属性特征的信息，来合成语音，达到个性化的声音定制的目的。说话人属性特征是描述说话人生理属性和社会属性的一系列特征，如：年龄、性别、人格等。引入说话人属性特征的概念，使得面向有声小说等应用的声音定制化语音合成成为可能，用户可以设定或修改人物属性特征，从而操纵合成语音的声音特点。同时，该方法也解耦了不同因素对于声音特征的影响，使得语音的合成及定制具有可解释性。

题目 Tittle：从人设到音色——基于说话人属性特征的语音合成

期刊 Journal & Comments：IJCNN 2022 神经网络国际联合会议

作者 Authors：杨智涵、吴志勇、贾珈

合成 demo：Speaker-Characteristics-Guided-Speech-Synthesis