pytorch在训练的时候冻结一部分权重

最新推荐文章于 2024-06-08 21:24:38 发布

zzc_22

最新推荐文章于 2024-06-08 21:24:38 发布

阅读量535

点赞数 11

文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/zzc_22/article/details/136626606

版权

文章介绍了如何在模型中使用预训练的CLIP模型进行图像和文本编码，并展示了两种情况：一种是完整训练模型，另一种是将CLIP模型冻结以防止参数更新。作者还演示了如何将图像和文本特征通过DEQFusion融合。

摘要由CSDN通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

在用CLIP作为encoder的时候，只保留CLIP的权重，后续网络正常训练

一、在model里将网络搭建好

import torch
import clip
from PIL import Image
from DEQfusion import DEQFusion
import torch.nn as nn
import torch
import torch.nn.functional as F

class model_enc(nn.Module):
    def __init__(self):
        super(model_enc, self).__init__()
        self.model, self.preprocess = clip.load("ViT-B/32", device="cuda" if torch.cuda.is_available() else "cpu")
        self.device = "cuda" if torch.cuda.is_available() else "cpu"
        self.num_modals = 2
        self.channel_dim = 512
        self.fusion = DEQFusion(self.channel_dim, self.num_modals)
        
    def forward(self, image, text):
        image = self.preprocess(Image.open(image)).unsqueeze(0).to(self.device)
        text = clip.tokenize([text]).to(self.device)
        features = []
        image_features = self.model.encode_image(image)
        features.append(image_features)
        text_features = self.model.encode_text(text)
        features.append(text_features)
        fused_feat, jacobian_loss, trace = self.fusion(features)
        return fused_feat, jacobian_loss, trace

if __name__ == "__main__":
    enc = model_enc().to("cuda")
    image = "CLIP.png"
    text = "C opens a bag"
    fused_feat, jacobian_loss, trace = enc(image, text)
    print(fused_feat.shape)

这里将image和text通过encoder后用一个DEQfusion将其融合

二、冻结CLIP

class model_enc(nn.Module):
    def __init__(self):
        super(model_enc, self).__init__()
        self.model, self.preprocess = clip.load("ViT-B/32", device="cuda" if torch.cuda.is_available() else "cpu")
        for p in self.parameters():
            p.requires_grad = False
        self.device = "cuda" if torch.cuda.is_available() else "cpu"
        self.num_modals = 2
        self.channel_dim = 512
        self.fusion = DEQFusion(self.channel_dim, self.num_modals)