勇立潮头!高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音,有不少机构及企业都进行了相关项目的研究,包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech(https://speechresearch.github.io/naturalspeech2/)还有Meta今年发布的Voicebox(https://voicebox.metademolab.com/),都是利用大数据、大模型和零样本(zero-shot)合成技术,实现语音合成的音色、韵律、风格的多样性的代表。

语音TTS已经走向了AIGC大模型模式,利用大规模预训练数据,加上高品质的SFT数据,实现zero-shot的声音复刻正成为越来越火热的技术趋势。同时零样本语音合成在娱乐产业、云平台、通用AI平台及AIGC领域都有广泛的应用场景,包括电影电视配音及解说、有声书、游戏角色配音、虚拟主播、语音导航等。

在此背景下,晴数智慧前瞻性地推出“高品质语音大模型SFT数据集”,此数据具备48KHz高采样率,采集人数上万,环境纯净,内容自然多样,近万小时,是语音SFT的绝佳数据。

数据集参数:

话题分布:涉及休闲娱乐等15个话题

说话人信息:为保证语音的多样性,此数据集由来自中国各方言地区超3万人参与录制,男女近似比1:1,以中青年为主,地域分布广泛。

说话人性别分布
说话人年龄分布
说话人地域分布

 

此数据已被数家娱乐产业头部企业运用于AIGC语音合成研发及应用,数据质量经过实践检验。更多数据详情,资讯我们的数据专家。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值