微调（二）

最新推荐文章于 2024-09-08 23:37:31 发布

拿铁不拿铁

最新推荐文章于 2024-09-08 23:37:31 发布

阅读量295

点赞数 5

文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_74923758/article/details/140851852

版权

Selective类方法中的BitFit

它的核心思想是仅更新模型中的偏置项（bias terms）或部分偏置项，从而实现参数的稀疏更新。这种方法在小到中等规模的训练数据上表现出色，有时甚至能够超越全模型微调的性能。对于BERT模型，BitFit只更新了模型参数量的0.08%到0.09%，但依然能够与全参数微调方法如Adapter和Diff-Pruning相媲美，甚至在某些任务上略胜一筹。

在实现上，BitFit主要关注一下几个方面的偏置参数：

值得注意的是，虽然只更新了模型的一小部分参数，但BitFit在不同任务上的表现仍然可以与全参数微调相媲美。此外，通过实验发现，仅更新与query相关的偏置和特征维度放大的FFN层（intermediate）的偏置参数，也能达到与全参数微调相近的效果。

在神经网络中，偏置项（Bias Terms）是一种加在网络层的输入或输出上的常数项，用于帮助模型学习数据中的非线性模式。偏置项对于模型能否成功学习复杂的函数映射至关重要。下面是偏置项在不同上下文中的详细解释：

1、单个神经元的偏置项：

在单个神经元或感知器中，偏置项通常表示为b，并与输入数据 x 相加后通过激活函数 f 来生成输出 a ，公式表示为：

a = f（w * x + b）

其中，w是权重，x是输入，b是偏置项。

2、多层感知器中的偏置项：

在多层感知器或更复杂的网络结构中，每个层级都可能有自己的偏置项。例如，在全连接层中，每一层的输出可能会加上一个偏置向量b，然后输入到下一层。

3、卷积神经网络中的偏置项：

在卷积神经网络（CNN）中，偏置项可能针对每个卷积核或每个特征图（feature map）进行添加。

4、Transformer中的偏置项：

在Transformer架构中，偏置项可能用于注意力机制（如查询Q，键K，值V的计算中）或前馈网络（feed-forward network）中。

5、Batch Normalization中的偏置项:

批归一化（Batch Normalization）在对每个小批量数据进行归一化后，也会使用偏置项和缩放因子来恢复数据的原始范围。

6、Layer Normalization中的偏置项:

层归一化（Layer Normalization）在对层的激活输出进行归一化后，也会添加偏置项和缩放因子。

偏置项的主要作用是提供一个平移参数，允许模型在特征空间中进行更灵活的拟合。例如，如果所有权重初始化为零，没有偏置项的话，无论输入数据如何变化，神经元的输出都将是相同的，这将导致模型无法学习到有用的表示。通过引入偏置项，每个神经元可以独立地调整其输出，使得模型能够更好地拟合数据。

拿铁不拿铁

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
微调（二）

例如，如果所有权重初始化为零，没有偏置项的话，无论输入数据如何变化，神经元的输出都将是相同的，这将导致模型无法学习到有用的表示。值得注意的是，虽然只更新了模型的一小部分参数，但BitFit在不同任务上的表现仍然可以与全参数微调相媲美。此外，通过实验发现，仅更新与query相关的偏置和特征维度放大的FFN层（intermediate）的偏置参数，也能达到与全参数微调相近的效果。在神经网络中，偏置项（Bias Terms）是一种加在网络层的输入或输出上的常数项，用于帮助模型学习数据中的非线性模式。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。