不难发现,Speech-To-Speech声音克隆技术开始火了,借助时下AIGC产品应用层出不穷,声音克隆也受到越来越多的关注。目前,AI声音克隆技术已经可以实现模拟出一个人的声音,包括音色、语言习惯和情绪等。
一、声音克隆是什么?
AI 声音克隆是生成模仿特定人类声音的合成语音的过程,其本质是借助AIGC手段自动生成不同风格的声音。声音克隆可以对原音设置口音、风格(停顿、语气等)、情感、切换多种语言等,最终根据应用场景输出另一种风格的声音。
声音克隆技术可以运用在多种场景,如游戏角色台词、纪录片旁白、画外音等AIGC行业,可以在短时间内生成特定声音的多种语音内容,帮助企业降低制作成本。此外,在通信领域,声音克隆可以帮助私人定制语音助手,实现个性化的语音交互。
二、背后的数据逻辑
声音克隆技术主要基于深度学习模型,通过训练大量的语音数据来学习语音特征,并生成与目标录音相似的语音。背后的数据逻辑如下:
首先,构建声音克隆的基座需要大规模的音频。这些数据集应包含多语种、多风格、多情感的音频样本,涵盖不同主题和风格,以确保模型能够捕捉说话者的语音特征。
在构建基座模型后,需要使用上千小时高质量语音数据对基座模型进行微调训练。这一阶段的训练数据最好配有副语言标注。副语言包括韵律特征(如语调、重音等)、突发性特征(如笑声、哭泣声等),以及次要发音(如鼻音等)。这些标注能够帮助模型更好地理解情感和语调,从而生成更具表现力的语音。
最后,需要对模型进行精细化调整,以提升生成语音的自然度和专业性。这一过程通常需要传统的专业发音人语音数据,以确保生成的语音流畅且自然。通过使用这些专业数据,模型能够学习更细腻的发音技巧和语音风格,使最终生成的语音更加接近真实说话者的声音。
三、声音克隆专题数据集
数据堂自有版权的带有副语言标注的成品数据集、多风格、多情感、多语种的语音合成库可帮助模型更好提取语音特征,助力客户构建高质量的声音克隆模型。
1、带有副语言标注的高质量语音数据推荐
(1)2人中文自由对话合成库
发音人为专业声优,分为一男一女,针对既定话题进行自由对话。专业语音学家参与标注,且标注副语言,副语言标签包含换气、停顿、嘴瓢、拖音、咳嗽、笑声、结巴重复、倒装、语气词等,精准匹配声音克隆的研发需求。采样格式48khz,24bit,PCM wav。
(2)200小时中文自然对话精标副语言合成库
400名普通发音人,进行两两自然对话,标注文本内容、句子时间戳。在副语言方面,标注了换气、重音、停顿、拖音、笑声等14种副语言。采样格式48khz,24bit,PCM wav。
2、多风格的多发音人语音数据推荐
(1)8人多风格平均音色合成库
涵盖北京话、电影解说、华妃、纪录片解说、美食解说、小说解说、中青年磁性男、怼人杜飞。
(2)150人中文客服平均音色合成库
由中文母语发音人录制,声音活泼亲切,录音内容以客服场景文本为主,涵盖金融等多个领域。语料音素覆盖均衡,专业语音学家参与标注,字准确率不低于99.8%,韵律标注准确率不低于准确率不低于98%。
(3)100人中文通用平均音色合成库
内容分为中文、英文、中英混读。录音人性别及年龄分布均衡,包括成人音色、儿童音色、老人音色。录音内容涵盖新闻、日常口语、有声读物、诗词、广告、消息播送、娱乐等类别。对中文和英文分别进行了发音平衡覆盖。
(4)50人中文三风格平均音色合成库
客服类、播音类、故事类录音文本,音节音素音调进行了平衡覆盖。录音人分为男性25人,女性25人。录音内容为每人210句客服类句子、210句播音类句子、210句儿童读物句子,进行音字标注及韵律标注。
3、多情感的多发音人语音数据推荐
(1)42人中文多情感合成库
发音人覆盖不同年龄段、性别,且分布均衡。内容包含高兴、愤怒、悲哀、惊讶、恐惧、厌恶、中性七种情感句子。数据集共计108小时,平均每句15个字左右,每人每种情感数据量不少于20分钟。
(2)20人中文多情感合成库
由中文母语发音人录制,覆盖不同年龄段音色和性别,共计60小时。文本均来自于小说,包含高兴、愤怒、悲哀、惊讶、恐惧、厌恶、中性七种情感文本。语料音素覆盖均衡,根据发音人实际发音对音频进行文本音字标注、韵律层级标注、音素边界标注。
4、精品发音人语音数据推荐
(1)29.4小时中文女声通用合成库
录音人为声音温柔亲切的年轻女性,内容涵盖日常口语、有声读物、新闻、广告、客服、电影解说,音节音素音调都进行了平衡覆盖。中文和中英混合句子均长15字左右,英文句子4~8个单词左右。
(2)4人东北方言平均音色合成库
由东北本土的专业声优进行录制,年龄20-30岁。语料中约40%包含东北特有词汇,句子均长15字左右。对音频进行文本音字标注、韵律层级标注、音素边界标注,可用于语音合成声音克隆模型训练及算法研究。
数据堂助力语音识别、语音合成、声音克隆等多种语音任务,用更高质量的数据、更精细化的数据满足您的个性化数据需求。