开放下载丨超自然对话语音合成数据集NCSSD

最新推荐文章于 2025-05-03 09:07:35 发布

语音之家

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量756

点赞数 5

文章标签：人工智能 ai 语言模型架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48827824/article/details/143427639

版权

内蒙古大学S2LAB 刘瑞研究员 联合字节跳动、香港中文大学（深圳）等单位推出了涵盖中英双语、超过236小时的超自然对话语音合成数据集——NCSSD，并在GitHub平台开源了搜集子集的数据构建Pipeline，在Hugging Face平台开放了数据下载页面。🚀🚀🚀

您可以通过以下链接免费下载并立即开始使用：

Hugging Face数据集页面：

https://huggingface.co/datasets/walkerhyf/NCSSD

GitHub数据仓库：

https://github.com/walker-hyf/NCSSD

GitHub源码仓库：

https://github.com/walker-hyf/GPT-Talker

GPT-Talker样例页面：

https://walker-hyf.github.io/GPT-Talker/

arXiv预印本论文：

https://arxiv.org/pdf/2407.21491

NCSSD数据集简介：

🔎 超236小时自然对话语音数据，包括搜集自互联网的电视剧集片段（搜集子集），以及人工录制的对话内容（录制子集）。
🌏 支持两种语言：中文（Zh）和英语（En）
📣 丰富的对话场景，涵盖多种对话主题和内容，丰富的说话人（776人以上）。
🏆 基于NCSSD训练的GPT-Talker性能优秀，可以为agent合成自然且具有表现力的对话语音。

NCSSD 数据集统计

GPT-Talker模型结构图

NCSSD数据集构建过程

通过NCSSD数据集，研究者和开发者可以进行大规模语音合成模型的训练和开发，为多语言环境下的语音应用提供强有力的支持！期待大家在使用NCSSD数据集时能够发掘更多惊喜，欢迎分享您的研究成果与经验！

🔔 请注意：该数据集仅可用于非商业科研目的，S2LAB团队不拥有搜集子集部分(CL-ZH和CL-EN)音频文件的版权，版权仍归原始视频或者音频的所有者。想把该数据集及Pipeline用于商业用途，请联系S2LAB团队。

联系我们：liurui_imu @163.com, hyfwalker@163.com

内蒙古大学语音理解与生成实验室 S2LAB：https://ttslr.github.io/

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。