数据分享｜纯净音自然多轮对话数据集——语音大模型

最新推荐文章于 2024-04-11 09:33:42 发布

Magic Data

最新推荐文章于 2024-04-11 09:33:42 发布

阅读量627

点赞数 7

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47718443/article/details/135556578

版权

在过去的一年里，大语言模型一路高歌猛进，让人惊艳的产品不断被推出。语音大模型也迎来突破，其中就包括还原度越来越高的声音复刻技术。

优秀的语音复刻性能离不开高质量的训练数据支撑。语音大模型构建需要大量的自然数据，尽可能保证自然度，内容多样性，以及口音多样性。晴数智慧设计的纯净音自然多轮对话数据集，为语音大模型训练使用，录制环境安静纯净，录音人地区分布广泛，人数众多，领域设计广泛，版权清晰，是市面上不可多得的语音复刻/对话大模型的高品质选择。

数据概览

数据亮点

1、纯净录制环境

数据采集环节对环境进行了配置，确保采集环境相对安静，环境噪音少。

2、多风格自发对话

此数据集含有说话人在多种状态下的自发对话，包括商务工作、购物咨询、争议协商、闲聊等状态，帮助机器学习及掌握人类在多种对话状态下的发音特征和风格从而实现更好地拟合。

3、风格、领域多样性

此数据集采集自来自中国30个省份的说话人，地域分布均衡，涵盖18-60岁的说话人，囊括了普遍的说话风格与特点；同时内容覆盖商业经济、数码产品等20类话题，具有极高的话题丰富度。

最低0.47元/天解锁文章

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
数据分享｜纯净音自然多轮对话数据集——语音大模型

语音大模型构建需要大量的自然数据，尽可能保证自然度，内容多样性，以及口音多样性。此数据集采集自来自中国30个省份的说话人，地域分布均衡，涵盖18-60岁的说话人，囊括了普遍的说话风格与特点；此数据集含有说话人在多种状态下的自发对话，包括商务工作、购物咨询、争议协商、闲聊等状态，帮助机器学习及掌握人类在多种对话状态下的发音特征和风格从而实现更好地拟合。晴数智慧高纯净音自然多轮对话数据集处理过程遵循完整的晴数智慧数据合规保障机制，在整个数据生命周期中，保证数据的流转可溯性，确保数据版权完整。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。