大模型工程技巧总结

最新推荐文章于 2024-10-10 11:54:20 发布

土豆打工仔

最新推荐文章于 2024-10-10 11:54:20 发布

阅读量811

点赞数 25

文章标签：人工智能 chatgpt llama 随机森林

本文链接：https://blog.csdn.net/weixin_51278988/article/details/135577434

版权

Dataset

1、大模型训练的数据来源是哪些？

<aside> 😂 一般来说，LLM模型的训练数据可以是一般性预料和特殊性预料。比如网页上面的文本，特殊语料一般是一些论文，一些代码语料。最近研究表明，代码语料可以提升模型复杂推理的能力（chain-of-thought），因其具有的长距离依赖以及内在精密的逻辑。

</aside>

2、有了LLM模型训练的语料后，一般如何进行语料清洗？

<aside> 😭 在第一步语料清洗中，现在更推荐用启发式的规则来筛选，比如删去标点符号过多或者过短的句子，以及一些特定词汇(敏感词、脏话、链接)。ps：之前研究者利用维基百科作为正例训练二分类筛选好的预料，效果并不好，会有偏见。说明维基百科上面的语料方差也挺大的。第二步去除重复的语料。第三部去除一些隐私信息，因为社交媒体上经常会出现一些地址名字。

</aside>

3、在处理预训练语料，对于训练来说有什么需要注意的吗？

<aside> 🤣 3-1 因为我们收集的语料来自不同的地方，我们不能直接对语料进行建模。以及要注意语料要均衡，可以提升泛化能力，特定类型的语料可以提高模型特定的能力，比如我给LLM训练代码语料，那么他的cot就会变强。 3-2 语料规模要与模型参数规模相配合，token数和模型参数差不多，效果更好。 3-3 如果有低质量的语料，还不如不用，以及过多重复的语料会让模型陷入局部最优。(不知道哪个是对的，损失一直跳出不来)

</aside>

4、Self-Instruct构建数据集预料相关步骤？

<aside> 🤗 例如Alpaca dataset就是通过Self-Instruct产生的

Seed task pool with a set of human-written instructions (175 in this case) and sample instructions;
Use a pretrained LLM (like GPT-3) to determine the task category;
Given the new instruction, let a pretrained LLM generate the response;
Collect, prune, and filter the responses before adding them to the task pool.

</aside>

5、在垂直领域中训练LLM的一般数据要求？

<aside> ☹️ 5-1 数据配比，领域数据和通用数据最好不要1：1配比，以及两者都要用同样的标准进行数据清洗以及质量控制。 5-2 在二次预训练，领域数据的比例要在百分之15以下，比如chatgpt用百分之10的中文数据就可以得到一个很不错的中文model ps: 不要轻易用from scratch pretraining和continue pretraing去训练行业大模型，每100B的领域数据，需要配上700B-1000B的通用数据。 5-3 在微调sft中，1：1的配比还不错。如果只用领域数据进行训练，模型容易出现遗忘。

</aside>

6、什么情况需要自己新增[bos] token?

<aside> 🤡