BERT实验部分，针对不同任务训练为什么需要引入新参数

最新推荐文章于 2024-09-03 20:33:33 发布

yxx122345

最新推荐文章于 2024-09-03 20:33:33 发布

阅读量884

点赞数 13

文章标签： bert 自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yxx122345/article/details/141638783

版权

在 BERT 的 fine-tuning 过程中，引入新的向量 (C) 和 (W) 是为了适应特定任务的需求。让我们来一步步解读：

1. 向量 (C) 的引入

(C) 是从 BERT 最后一层隐藏状态中对应于特殊标记 [CLS] 的向量。
[CLS] 是在每个输入序列的开头添加的一个特殊标记，BERT 设计中，这个标记的向量会被用作整个输入序列（无论是单句还是句对）的“聚合表示”（aggregate representation）。
作用：BERT 经过预训练后，可以对 [CLS] 产生一个全局的语义表示。在 fine-tuning 阶段，使用这个向量 (C) 来代表输入的全局语义，作为下游任务的输入特征。

2. 向量 (W) 的引入

(W) 是在 fine-tuning 阶段新引入的参数矩阵，其大小为 (K \times H)，其中 (K) 是分类标签的数量，(H) 是隐藏层的维度大小（即 BERT 输出的维度）。
作用：(W) 用来将 BERT 产生的全局语义表示 (C) 映射到任务的标签空间。它是一个线性分类层，通过将 (C) 和 (W) 的乘积输入到 softmax 函数中，从而得到每个标签的概率分布。

3. 计算损失

损失函数是通过 (C) 和 (W) 计算的。具体来说，(C) 和 (W) 相乘，再通过 softmax 函数得到预测的标签概率分布，然后与真实标签计算交叉熵损失。
意义：这一步的目的在于通过优化损失函数，微调 BERT 模型的参数，使其更好地适应特定的下游任务（如分类任务）。

4. 总结

向量 (C) 代表了输入序列的整体语义，是从 BERT 模型的预训练中提取出来的。
向量 (W) 是为了特定任务引入的分类层参数，用于将 (C) 映射到标签空间，从而进行分类。
这些步骤确保了 BERT 能够从一个通用的预训练模型转化为针对特定任务优化的模型。

在这里插入图片描述
这两个参数 (C) 和 (W) 是在模型设计和训练过程中分别由模型自动生成和人类手动指定的。

1. 向量 (C)

模型自动生成：向量 (C) 是由 BERT 模型在处理输入序列时自动生成的。具体来说，当一个输入序列（句子或句对）通过 BERT 模型的多层 Transformer 后，模型会在最后一层提取出特殊标记 [CLS] 的对应隐藏状态。这个隐藏状态向量 (C) 就代表了整个输入序列的聚合表示，模型根据它来进行进一步的预测。

2. 向量 (W)

人类指定：向量 (W) 是在人类设计模型时引入的新的参数。在 fine-tuning 阶段，(W) 是一个线性分类层的权重矩阵，其大小为 (K \times H)，其中 (K) 是分类任务的标签数（由具体任务决定），(H) 是 BERT 模型的隐藏层维度（由模型架构决定）。这一参数是模型在 fine-tuning 时需要学习的，也就是模型通过优化算法（如梯度下降）来调整 (W) 的值，以适应具体任务。

总结

(C) 是模型基于输入数据自动生成的结果。
(W) 是模型设计时由人类指定的需要学习的参数，在 fine-tuning 时会通过训练来更新。

是的，引入新参数（如 (W)）主要是为了适应特定的任务需求，并且计算损失函数。下面是详细解释：

引入新参数的目的

任务特定的适应性：
- 在 BERT 的预训练阶段，模型已经学会了如何理解语言的广泛语义，但它并没有针对特定任务（例如文本分类、命名实体识别等）进行优化。
- 引入新参数（如 (W)）是为了将 BERT 的预训练模型的通用表示（如通过向量 (C) 得到的表示）转化为特定任务的预测输出。例如，在分类任务中，(W) 用于将 BERT 的输出映射到不同的分类标签。
计算损失函数：
- 损失函数的计算是模型训练的重要部分，它用于评估模型的预测效果并指导模型参数的更新。
- 通过引入新参数（如分类层的权重矩阵 (W)），我们能够计算模型的预测结果，并将其与真实标签进行比较，进而计算损失值。这一过程是模型优化的核心。

具体步骤

生成表示：
- BERT 模型处理输入数据后，生成 [CLS] 标记的隐藏状态向量 (C)。
映射到任务标签：
- 使用新引入的分类层参数 (W) 对向量 (C) 进行线性变换，得到任务标签的概率分布。这个步骤将 BERT 的输出适配到特定任务的标签空间。
计算损失：
- 使用 softmax 函数将线性变换后的结果转化为概率分布。
- 计算预测结果与真实标签之间的损失值（如交叉熵损失）。
优化模型：
- 基于计算出的损失，通过优化算法（如梯度下降）更新模型参数，包括 BERT 的预训练参数和新引入的分类层参数 (W)。

总结

引入新参数是为了将预训练的 BERT 模型应用于具体的下游任务，并且通过计算损失函数来优化这些参数，以提升模型在特定任务上的表现。

关注

13
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
BERT实验部分，针对不同任务训练为什么需要引入新参数

引入新参数是为了将预训练的 BERT 模型应用于具体的下游任务，并且通过计算损失函数来优化这些参数，以提升模型在特定任务上的表现。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。