pytorch 参数冻结 parameter-efficient fine-tuning

最新推荐文章于 2025-04-25 19:15:48 发布

XiaoPangJix1

最新推荐文章于 2025-04-25 19:15:48 发布

阅读量512

点赞数 10

分类专栏： pytorch 文章标签： pytorch python 人工智能

本文链接：https://blog.csdn.net/zmm__/article/details/141573283

版权

pytorch 专栏收录该内容

17 篇文章

订阅专栏

目标：在网络中冻结部分参数进行高效训练

框架：pytorch （version 1.11.0)

基本实现：

需要学习的参数requires_grad设置为True，冻结的设置为False
需要学习的参数要加到 optimizer的List中；对于冻结的参数，可以直接不加进去，（应该也可以加进去，但是requires_grad=False)

注意事项：
3. 如果不传递参数的层，记得前向操作是要设置 with torch.no_grad，否则即便没有需要更新的参数，其layer的梯度也回传，效率低。

要保证所有参与前向的操作，都被用于计算loss。例如，a=self.layer(b)，只要前向里出现了这个操作，就要保证a(或a的后续输出)要参与loss的计算。如果a算完了不用，是不可以的。（不论self.layer里是否有需要更新的参数）。ps:这点和不冻结设置下的要求不一样，如果所有参数都学，即便中间有一些变量操作是冗余的，也不会报错，只是增加计算代价而已。（比如，在clip框架里，如果不用text prompt, 就不要提取该特征）
要保证，所有需要更新的参数，都用于前向计算了。如何比较二者的参数，见下:

a. 记录需要梯度回传的参数：

grad_params = set()
for name, param in model.named_parameters():
    if param.requires_grad:
        grad_params.add(name)

b. 记录前向中使用的参数：

used_params = set()
def forward(self, x):
    for name, param in self.named_parameters():
        if param.requires_grad:
            param.register_hook(lambda grad, name=name: used_params.add(name))
    return self.model(x)

c. 比较二者差异

unused_params = grad_params - used_params
if unused_params:
    print("以下参数未在 forward 函数中使用:", unused_params)
else:
    print("所有需要计算梯度的参数都在 forward 函数中使用了。")

ps. 好像也可以通过在nn.parallel.DistributedDataParallel中设置find_unused_parameters=True来找到未使用的变量。（不过我没试过