📖标题:Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
🌐来源:arXiv, 2409.08239
摘要
🔸大语言模型仍然在利用结构化数据、复杂推理或工具使用的具有挑战性的场景中挣扎。在本文中,我们提出了Source2Synth:一种新方法,可用于教授LLM新技能,而无需依赖昂贵的人工注释。Source2Synth将自定义数据源作为输入,并通过基于现实世界源的中间推理步骤生成合成数据点。Source2Synth通过根据其可回答性丢弃低质量的代来提高数据集的质量。
🔸我们通过将其应用于两个具有挑战性的领域来证明这种方法的通用性:我们测试了多跳问答(MHQA)中的推理能力,以及表格问答(TQA)中的工具使用情况。与微调的基线相比,我们的方法在WikiSQL上的TQA性能提高了25.51%,在HotPotQA上的MHQA性能提高了22.57%。
🛎️文章简介
🔸研究问题:如何基于真实数据源生成高质量的合成数据,并利用这些数据来提升语言模型在复杂任务中的表现?
🔸主要贡献:论文提出了Source2Synth方法,通过结合真实数据源生成和优化合成数据