上海人工智能实验室的书生·浦语大模型学习笔记（第二期第一课之下篇）

最新推荐文章于 2024-07-18 16:25:07 发布

Words worth

最新推荐文章于 2024-07-18 16:25:07 发布

阅读量630

点赞数 17

分类专栏：人工智能文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/weixin_53443275/article/details/137185904

版权

人工智能专栏收录该内容

25 篇文章 0 订阅

订阅专栏

在自然语言处理领域，大型语言模型（LLM）的研究和应用日益广泛。InternLM2作为一款具有千亿参数的开源大型语言模型，由上海人工智能实验室、商汤科技、香港中文大学以及复旦大学联合推出，引起了广泛关注。本笔记对《InternLM2 Technical Report》学习做记录，并着重介绍其中的InternEvo和数据准备这两个特色的部分。

一、模型结构

InternLM2采用了Transformer架构，这是一种基于自注意力机制（Self-Attention）的神经网络结构。Transformer结构具有较好的并行计算能力，能够有效处理长距离依赖问题。在InternLM2中，模型规模达到了千亿参数，包含多个Transformer层，使得模型在处理复杂语言任务时具有更强的表示能力。

二、预训练策略

InternLM2采用了创新的预训练策略，主要包括以下几点：

（1）多任务学习：在预训练阶段，InternLM2同时学习了多个任务，包括语言建模、词性标注、命名实体识别等。这种多任务学习策略有助于提高模型在下游任务上的泛化能力。

（2）数据增强：通过数据增强技术，如词替换、句子重组等，InternLM2在预训练阶段增加了数据的多样性，提高了模型的鲁棒性。

（3）对比学习：InternLM2采用了对比学习策略，通过构造正负样本对，使模型学习到更好的文本表示。

（4）动态掩码：在预训练过程中，InternLM2采用了动态掩码技术，使模型能够更好地学习到长距离依赖关系。

三、对齐策略

为了使InternLM2与人类指令的一致性和价值观保持一致，研究团队采用了以下对齐策略：

监督式微调（SFT）：在预训练完成后，使用标注数据对模型进行微调，以提高模型在特定任务上的表现。
基于人类反馈的条件在线强化学习（COOL RLHF）：通过收集人类反馈，对模型进行在线优化，使模型更好地遵循指令。

四、性能评估

评估指标：InternLM2在多个公开数据集上进行了性能评估，包括文本分类、情感分析、自然语言推理等任务。评估指标主要包括准确率、F1值等。
对比实验：研究团队将InternLM2与现有的大型语言模型进行了对比，如GPT-3、GLM等。实验结果表明，InternLM2在多个任务上取得了优异的性能，尤其在长文本建模和开放式主观评估方面具有明显优势。
长文本建模能力：InternLM2在处理长文本方面表现出色，能够在20万token的上下文中实现“大海捞针”的效果。

五、InternEvo：进化式预训练策略

背景介绍

传统的预训练策略主要依赖于大规模语料库的迭代训练，然而，这种方法在模型规模不断扩大时，面临着训练效率低下、计算资源消耗巨大等问题。为此，InternLM2提出了进化式预训练策略——InternEvo。

技术原理

InternEvo策略的核心思想是将进化算法应用于预训练过程中，通过不断优化模型结构、参数和训练策略，提高模型在特定任务上的性能。

（1）种群初始化：在预训练开始时，随机初始化一组模型参数，作为初始种群。

（2）适应度评价：针对每个模型，使用验证集进行性能评估，计算适应度值。

（3）选择与交叉：根据适应度值，选择表现较好的模型进行交叉操作，生成新一代模型参数。

（4）变异：在交叉操作的基础上，引入变异机制，增加模型参数的多样性。

（5）循环迭代：重复上述步骤，不断优化模型参数，直至达到预训练目标。

优势分析

（1）提高训练效率：通过进化算法，InternEvo策略可以在有限的计算资源下，快速找到较优的模型参数，提高训练效率。

（2）增强模型泛化能力：进化算法引入了模型参数的多样性，有助于提高模型在未知数据上的泛化能力。

（3）适应不同任务：InternEvo策略可以根据特定任务的需求，调整进化过程中的适应度函数，使模型更好地适应不同任务。

六、数据准备策略

数据收集与清洗

为了提高模型在预训练阶段的性能，数据准备策略至关重要。InternLM2在数据收集与清洗方面采取了以下措施：

（1）大规模语料库：收集了包括网页文本、电子书、新闻、文章等在内的多种类型的文本数据，构建了一个大规模的语料库。

（2）数据清洗：采用新一代清洗过滤技术，对原始数据进行去重、过滤噪声、纠正错误等操作，提高数据质量。

（3）多维度数据价值评估：基于文本质量、信息质量、信息密度等维度，对数据价值进行综合评估，筛选出高质量的数据。

数据增强

为了进一步提高数据多样性，InternLM2采用了以下数据增强策略：

（1）高质量语料驱动的数据富集：利用高质量语料的特征，从物理世界、互联网以及语料库中进一步富集更多类似语料。

（2）有针对性的数据补齐：针对模型在特定领域的知识缺陷，如世界知识、数理、代码等，进行针对性补充。

数据分布与预处理

为了使模型更好地学习数据分布，InternLM2采用了以下预处理策略：

（1）数据分布优化：通过对数据集进行统计分析，优化数据分布，降低模型在训练过程中的过拟合风险。

（2）数据预处理：对数据进行分词、词性标注、命名实体识别等预处理操作，为模型提供更丰富的输入特征。

七、学习心得

进化式预训练策略的重要性：InternEvo策略通过引入进化算法，提高了模型在预训练阶段的效率和泛化能力。这为我们在实际应用中，针对不同任务优化模型参数提供了新的思路。
数据准备策略的关键作用：高质量的数据是大型语言模型成功的关键。InternLM2在数据收集、清洗、增强和预处理方面的策略，为模型性能的提升奠定了基础。
数据多样性与模型泛化能力：通过数据增强和有针对性的数据补齐，InternLM2在提高数据多样性的同时，增强了模型的泛化能力。
数据分布与模型性能：合理的数据分布有助于模型更好地学习数据特征，降低过拟合风险。在预处理阶段，对数据进行分布优化和预处理操作，对提高模型性能具有重要意义。

Words worth

关注

17
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
上海人工智能实验室的书生·浦语大模型学习笔记（第二期第一课之下篇）

传统的预训练策略主要依赖于大规模语料库的迭代训练，然而，这种方法在模型规模不断扩大时，面临着训练效率低下、计算资源消耗巨大等问题。为此，InternLM2提出了进化式预训练策略——InternEvo。
复制链接

扫一扫