数据开源 | Magic Data大模型高质量十万轮对话数据集

置顶

Magic Data

于 2024-07-10 13:54:14 发布

阅读量1.9k

点赞数 20

文章标签：开源人工智能语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47718443/article/details/140321981

版权

能够自然的与人类进行聊天交谈，是现今的大语言模型 (LLM) 区别于传统语言模型的重要能力之一，近日OpenAI推出的GPT-4o给我们展示了这样的可能性。

对话于人类来说是与生俱来的，但构建具备对话能力的大模型是一项不小的挑战，收集高质量的多轮对话训练数据则是其中关键一环。

为了能够让AI开发者们有效的推动多轮对话大模型的构建，晴数智慧首发推出了：LLM多领域超自然SFT多轮对话文本数据集！本数据集由晴数智慧Magic Data制作，总量数千万轮次。多样性，表现力，逻辑性，以及知识性都做到了极高品质，得到国内外大模型客户的认可。

大模型多轮对话SFT数据集_中文

为了能够让大家更好的理解我们的多轮对话数据集，我们选取了十万轮作为本次开源的“大模型多轮对话SFT数据集_中文”，其来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。本次开源的部分数据，由来自中国的644名不同ID的采集人独家贡献，北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开，上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力，以及端到端对话大模型。

数据统计

1

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。