ChatGPT是如何构造和清洗数据的？

最新推荐文章于 2024-07-18 18:43:19 发布

python_知世

最新推荐文章于 2024-07-18 18:43:19 发布

阅读量89

点赞数 21

文章标签： ai 大模型人工智能

本文链接：https://blog.csdn.net/zhishi0000/article/details/138326929

版权

本文详细探讨了大语言模型（LLM）的预训练和指定微调阶段所需的数据策略，包括数据获取、清洗（质量、重复和安全）、配比，以及指定微调阶段对样本质量和多样性的重要性。作者还提供了AI学习路径和实战指南，展示了不同阶段的学习内容和目标。

摘要由CSDN通过智能技术生成

数据是基础是现在LLM从业人的共识，尤其是高质量的数据。根据ChatGPT不同阶段的训练过程，数据也分为预训练数据（GPT）和指定微调数据（SFT，RLHF），前者用自回归的方式在尽可能多的数据上以自监督的方式进行上下文语境学习得到基础的大语言模型，后者则是通过多样且高质量的Instruction样本（三元组<指令，输入，输出>）来激发出大语言模型的能力，对齐下游任务或用户的输入。区别于两个阶段的目标，其涉及的数据需求，数据获取清洗等也不相同。

一、预训练数据

主要有数据获取、数据清洗、数据配比三部分工作。

1、数据获取

通常分开源、自建、爬取三种。在开源中常见的有wikipedia，书籍，CommonCrawl，代码，对话等类型。下图列举了LLama使用的数据分布。

在这里插入图片描述

其中wikipedia由于质量较高基本上会被每个LLM使用。书籍则是为较长的上下文学习提供语料，现在分学科的书籍电子化和抽取是各家重点搞的数据。代码数据则能加强模型的逻辑推理能力，因为其实现通常是分步骤有逻辑的。**尽可能整理自有数据和爬取外部数据是LLM项目讨论中最常见的话题。**在中文领域中，常见的数据可分为几个档次，A档：知乎，小红书，头部GZH/头条文章，百科，经验，专业新闻网站，政务网站，行业垂类网站，比如起点，晋江，传统图书电子化；B档: 英文数据集翻译成中文，主要得益于原始的英文质量高，实践中会有一些较严重的翻译问题（语句不通顺，专业实体，不需要翻译的英文等）；C档：知道，头条，抖音快手，自媒体新闻，微博，社区等UGC数据，这里有比较多的洗稿问题，需要从中清洗出有价值的数据。也有的工作在解析视频的字幕和语音数据，尤其是影视，电视节目相关的视频。

前面是偏通用的数据收集方法，结合任务树去针对性的补充相应数据也是非常关键的。任务树是指希望模型在哪些任务上有相应的能力，这些任务可归纳成类似树的层次结构。过了数据收集冷启动阶段后，根据已有样本训练出个模型版本，根据模型在不同任务上的评测表现，对效果较差的任务针对性的去补充相应的样本，这种方式对下文中的instruction样本也是适用的，哪里缺少补哪里，哪里不好改哪里。

2、数据清洗

可分为通用清洗方式和case驱动的清洗方式。通用清洗分质量、重复、安全三种维度，其中质量比较好理解，主要是去除一些低质量的文本，比如语句不顺序，包含奇怪的字符等等，这里可能借助些统计规则，也可能针对某些维度用传统的方式去构建有监督的分类模型。去重分为句子内，doc内，语料内三种粒度，其目的是为了清洗掉不合理的重复，因为互联网文本存在非常严重的洗稿搬运问题，避免在解码时产生重复的输出。**也有的工作认为大模型对重复是非常敏感的，要尽可能的进行去重，去重是重中之重。**就像人学习一样的，很多知识也只过一遍，比较难的才需要过多遍，过多的重复样本反而可能影响大模型在学习难样本上的表现。安全则是为了去除掉一些话题敏感内容，不健康内容等，也有的称为NSFW Filter（Not Safe For World）。

另一种清洗方式是case驱动的，根据评测的bad case或者老板们反馈的bad case，结合训练数据检索debug系统来定位是否训练样本存在类似的样本，同时这些样本也有类似的问题。一个badcase往往可能就代表一类问题或者一个流程上的bug，通过这个case举一反三，找到类似的case，可以实现某一类问题对应数据的清洗。这里全面有效的评测对数据的是至关重要的。相对来说，在大模型的早期偏一些通用的清洗，在中后期case驱动的清洗则更为关键。

3、数据配比

预训练的过程是比较耗资源的且训练过程往往是不可逆的，实验代价比较大，枚举比较完备的消融实验更是不太可能。同时单单数据维度就有很多种变量，尤其是数据配比，有中英文配比，不同来源的数据配比，不同任务的数据配比，不同质量的数据配比（被过滤的低质量仍可能有比较多的误过滤的好样本）。这里常见的方式则是在小LLM上进行实验得出合适的配比，然后将结论迁移到大LLM上。

二、指定微调数据

相比于上面的预训练阶段，指令微调阶段更强调样本的质量和多样性，两者缺一不可。多样性的不足会出现直接用预训练的模型有这个能力，反而指令微调后的模型没有了这个能力。质量的保证也是大家投入度比较高的任务，甚至不惜全部走人工都审核一遍的方式。国内自研更多是收集开源的instruction数据，翻译英文instruction数据，爬取ChatGPT，用常见的下游任务数据集抽样用来转成instruction样式补充，来进行快速的冷启动。其次结合任务树和case驱动，以主动学习的方式来人工去标注样本，在标注过程中，样本选取，标注标准和验收相比于传统任务则会更复杂，都是需要反复斟酌的。

有的工作发现利用少量的instruction样本进行tuning可快速提升模型在某些任务上的效果，实际坐下来靠少量的instruction样本是绝对不行的。如果是奔着做个通用的大模型，预训练和指定微调是缺一不可的，可能预训练更重要，因为有种说法是指定微调的作用只是将大模型的能力给激发出来，而大模型的能力则本身在预训练阶段就已经存在的。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

123?spm=1001.2014.3001.5501)这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

python_知世

关注

21
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
ChatGPT是如何构造和清洗数据的？

数据是基础是现在LLM从业人的共识，尤其是高质量的数据。根据ChatGPT不同阶段的训练过程，数据也分为预训练数据（GPT）和指定微调数据（SFT，RLHF），前者用自回归的方式在尽可能多的数据上以自监督的方式进行上下文语境学习得到基础的大语言模型，后者则是通过多样且高质量的Instruction样本（三元组）来激发出大语言模型的能力，对齐下游任务或用户的输入。区别于两个阶段的目标，其涉及的数据需求，数据获取清洗等也不相同。主要有数据获取、数据清洗、数据配比三部分工作。
复制链接

扫一扫