大模型工程技巧总结

Dataset

1、大模型训练的数据来源是哪些?

<aside> 😂 一般来说,LLM模型的训练数据可以是一般性预料和特殊性预料。比如网页上面的文本,特殊语料一般是一些论文,一些代码语料。最近研究表明,代码语料可以提升模型复杂推理的能力(chain-of-thought),因其具有的长距离依赖以及内在精密的逻辑。

</aside>

2、有了LLM模型训练的语料后,一般如何进行语料清洗?

<aside> 😭 在第一步语料清洗中,现在更推荐用启发式的规则来筛选,比如删去标点符号过多或者过短的句子,以及一些特定词汇(敏感词、脏话、链接)。ps: 之前研究者利用维基百科作为正例训练二分类筛选好的预料,效果并不好,会有偏见。说明维基百科上面的语料方差也挺大的。 第二步去除重复的语料。 第三部去除一些隐私信息,因为社交媒体上经常会出现一些地址名字。

</aside>

3、在处理预训练语料,对于训练来说有什么需要注意的吗?

<aside> 🤣 3-1 因为我们收集的语料来自不同的地方,我们不能直接对语料进行建模。以及要注意语料要均衡,可以提升泛化能力,特定类型的语料可以提高模型特定的能力,比如我给LLM训练代码语料,那么他的cot就会变强。 3-2 语料规模要与模型参数规模相配合,token数和模型参数差不多,效果更好。 3-3 如果有低质量的语料,还不如不用,以及过多重复的语料会让模型陷入局部最优。(不知道哪个是对的,损失一直跳出不来)

</aside>

4、Self-Instruct构建数据集预料相关步骤?

<aside> 🤗 例如Alpaca dataset就是通过Self-Instruct产生的

  1. Seed task pool with a set of human-written instructions (175 in this case) and sample instructions;
  2. Use a pretrained LLM (like GPT-3) to determine the task category;
  3. Given the new instruction, let a pretrained LLM generate the response;
  4. Collect, prune, and filter the responses before adding them to the task pool.

</aside>

5、在垂直领域中训练LLM的一般数据要求?

<aside> ☹️ 5-1 数据配比,领域数据和通用数据最好不要1:1配比,以及两者都要用同样的标准进行数据清洗以及质量控制。 5-2 在二次预训练,领域数据的比例要在百分之15以下,比如chatgpt用百分之10的中文数据就可以得到一个很不错的中文model ps: 不要轻易用from scratch pretraining和continue pretraing去训练行业大模型,每100B的领域数据,需要配上700B-1000B的通用数据。 5-3 在微调sft中,1:1的配比还不错。如果只用领域数据进行训练,模型容易出现遗忘。

</aside>

6、什么情况需要自己新增[bos] token?

<aside> 🤡

  • 从头训练一个自己的分词器,而且您的目标模型需要使用[BOS] token来表示文本的开始,例如GPT模型。
  • 利用已有的分词器来训练一个新的分词器,而且您的目标模型需要使用[BOS] token来表示文本的开始,例如GPT模型。
  • 训练一个可以处理不同任务的分词器,而且您的目标任务需要使用[BOS] token来表示句子或文本的开始,例如文本生成、文本分类、文本填空等。 </aside>

7、如何提高数据构建效率?

<aside> 👩‍👦‍👦

  1. 复用数据集:复用开源数据集。从而增加微调任务的多样性,提升模型性能。
  2. 使用 GPT-4 生成数据集:利用 GPT-4 的强大能力,初步生成基本数据集,人工只需要复核,可以提高标注速度。
  3. 体验良好的数据标注系统:开发或者使用体验良好的数据标注系统,可以提升标注速度和质量。同时还可以利用交叉验证等方法避免低质量数据生成。 </aside>

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值