文章转自公众号老刘说NLP
大模型的数据合成与增强综述
大模型数据工程进展-大模型的数据合成与扩充综述,A Survey on Data Synthesis and Augmentation for Large Language Models ,详细介绍了数据生成的两个主要方法:数据扩充和合成 :https://arxiv.org/pdf/2410.12896。这个工作不错,探讨了大模型在训练和评估过程中对大量、多样化和高质量数据的需求,并分析了当前数据生成技术的发展状况,值得看看。
可以看几个点:
2、数据合成和增强技术的演进步骤

3、数据准备阶段中数据合成和增强技术概览

表格按照不同的研究方法分类,展示了它们使用的数据源以及生成的合成数据
4、预训练中的数据合成和增强技术概览

5、微调中的数据合成和增强技术概览

6、指令微调的数据合成和增强技术概览

参考文献
1、https://arxiv.org/pdf/2410.12896
2、https://github.com/360AILABNLP/360LayoutAnalysis
3、https://arxiv.org/pdf/2401.17043