勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

最新推荐文章于 2024-11-12 21:42:01 发布

Magic Data

最新推荐文章于 2024-11-12 21:42:01 发布

阅读量760

点赞数

文章标签：人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47718443/article/details/133168866

版权

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

语音TTS已经走向了AIGC大模型模式，利用大规模预训练数据，加上高品质的SFT数据，实现zero-shot的声音复刻正成为越来越火热的技术趋势。同时零样本语音合成在娱乐产业、云平台、通用AI平台及AIGC领域都有广泛的应用场景，包括电影电视配音及解说、有声书、游戏角色配音、虚拟主播、语音导航等。

在此背景下，晴数智慧前瞻性地推出“高品质语音大模型SFT数据集”，此数据具备48KHz高采样率，采集人数上万，环境纯净，内容自然多样，近万小时，是语音SFT的绝佳数据。

数据集参数：

话题分布：涉及休闲娱乐等15个话题

说话人信息：为保证语音的多样性，此数据集由来自中国各方言地区超3万人参与录制，男女近似比1:1，以中青年为主，地域分布广泛。

说话人性别分布

说话人年龄分布

说话人地域分布

此数据已被数家娱乐产业头部企业运用于AIGC语音合成研发及应用，数据质量经过实践检验。更多数据详情，资讯我们的数据专家。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。