数据分享|纯净音自然多轮对话数据集——语音大模型

在过去的一年里,大语言模型一路高歌猛进,让人惊艳的产品不断被推出。语音大模型也迎来突破,其中就包括还原度越来越高的声音复刻技术。

优秀的语音复刻性能离不开高质量的训练数据支撑。语音大模型构建需要大量的自然数据,尽可能保证自然度,内容多样性,以及口音多样性。晴数智慧设计的纯净音自然多轮对话数据集,为语音大模型训练使用,录制环境安静纯净,录音人地区分布广泛,人数众多,领域设计广泛,版权清晰,是市面上不可多得的语音复刻/对话大模型的高品质选择。

数据概览

数据亮点

1、纯净录制环境

数据采集环节对环境进行了配置,确保采集环境相对安静,环境噪音少。

2、多风格自发对话

此数据集含有说话人在多种状态下的自发对话,包括商务工作、购物咨询、争议协商、闲聊等状态,帮助机器学习及掌握人类在多种对话状态下的发音特征和风格从而实现更好地拟合。

3、风格、领域多样性

此数据集采集自来自中国30个省份的说话人,地域分布均衡,涵盖18-60岁的说话人,囊括了普遍的说话风格与特点;同时内容覆盖商业经济、数码产品等20类话题,具有极高的话题丰富度。

  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值