Meta:LLM高质量数据合成方案Source2Synth

在这里插入图片描述

📖标题:Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
🌐来源:arXiv, 2409.08239

摘要

🔸大语言模型仍然在利用结构化数据、复杂推理或工具使用的具有挑战性的场景中挣扎。在本文中,我们提出了Source2Synth:一种新方法,可用于教授LLM新技能,而无需依赖昂贵的人工注释。Source2Synth将自定义数据源作为输入,并通过基于现实世界源的中间推理步骤生成合成数据点。Source2Synth通过根据其可回答性丢弃低质量的代来提高数据集的质量。
🔸我们通过将其应用于两个具有挑战性的领域来证明这种方法的通用性:我们测试了多跳问答(MHQA)中的推理能力,以及表格问答(TQA)中的工具使用情况。与微调的基线相比,我们的方法在WikiSQL上的TQA性能提高了25.51%,在HotPotQA上的MHQA性能提高了22.57%。

🛎️文章简介

🔸研究问题:如何基于真实数据源生成高质量的合成数据,并利用这些数据来提升语言模型在复杂任务中的表现?
🔸主要贡献:论文提出了Source2Synth方法,通过结合真实数据源生成和优化合成数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值