大模型的数据合成与增强技术总结:

文章转自公众号老刘说NLP


大模型的数据合成与增强综述

大模型数据工程进展-大模型的数据合成与扩充综述,A Survey on Data Synthesis and Augmentation for Large Language Models ,详细介绍了数据生成的两个主要方法:数据扩充和合成 :https://arxiv.org/pdf/2410.12896。b58c05da37b60229d51b87d0b4e79959.jpeg这个工作不错,探讨了大模型在训练和评估过程中对大量、多样化和高质量数据的需求,并分析了当前数据生成技术的发展状况,值得看看。

可以看几个点:

2、数据合成和增强技术的演进步骤

a9be7d53dbe62b2fc7126b8ff8c74f12.jpeg

3、数据准备阶段中数据合成和增强技术概览

2958e5361abc409f85468ba324425114.jpeg

表格按照不同的研究方法分类,展示了它们使用的数据源以及生成的合成数据

4、预训练中的数据合成和增强技术概览

747a7530a59509dd2164773699d7959a.jpeg

5、微调中的数据合成和增强技术概览

f7d62e54a1629817c145266767c64d32.jpeg

6、指令微调的数据合成和增强技术概览

29cd4ab213cec5733edec2a1257e21bd.jpeg

参考文献

1、https://arxiv.org/pdf/2410.12896

2、https://github.com/360AILABNLP/360LayoutAnalysis

3、https://arxiv.org/pdf/2401.17043


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值