CoOp代码中TextEncoder类解析

最新推荐文章于 2024-09-04 20:55:34 发布

Aha_aho

最新推荐文章于 2024-09-04 20:55:34 发布

阅读量237

点赞数 5

文章标签： computer vision nlp python

本文链接：https://blog.csdn.net/wow_10086/article/details/141302273

版权

class TextEncoder(nn.Module):  # 定义一个继承自 nn.Module 的 TextEncoder 类
    def __init__(self, clip_model):
        super().__init__()  # 调用父类 nn.Module 的初始化方法
        # 从传入的 CLIP 模型中获取必要的组件，并将它们保存为 TextEncoder 类的属性
        self.transformer = clip_model.transformer  # 获取 CLIP 模型中的 transformer 模块
        self.positional_embedding = clip_model.positional_embedding  # 获取位置嵌入（positional embedding）
        self.ln_final = clip_model.ln_final  # 获取最终的 LayerNorm 层
        self.text_projection = clip_model.text_projection  # 获取文本投影层
        self.dtype = clip_model.dtype  # 获取数据类型（通常是 float32 或 float16）

    def forward(self, prompts, tokenized_prompts):
        # 在输入的 prompts 上加上位置嵌入，确保类型与模型的 dtype 一致
        x = prompts + self.positional_embedding.type(self.dtype)
        # permute 操作将张量的维度从 [N, L, D] 变为 [L, N, D]，符合 transformer 的输入要求
        x = x.permute(1, 0, 2)  # NLD -> LND
        # 将处理后的张量输入到 transformer 中，得到编码后的输出
        x = self.transformer(x)
        # 再次 permute，将张量的维度从 [L, N, D] 变回 [N, L, D]
        x = x.permute(1, 0, 2)  # LND -> NLD
        # 在 transformer 的输出上应用最终的 LayerNorm 层，并确保类型与模型的 dtype 一致
        x = self.ln_final(x).type(self.dtype)

        # 经过 transformer 编码后，x 的形状为 [batch_size, n_ctx, transformer.width]
        # 从编码后的输出中提取 eot（end of text）标记对应的特征
        # tokenized_prompts.argmax(dim=-1) 找到每个序列中的 eot_token 索引
        x = x[torch.arange(x.shape[0]), tokenized_prompts.argmax(dim=-1)] @ self.text_projection
        # 使用 text_projection 矩阵对提取到的特征进行线性变换，得到最终的文本特征表示

        return x  # 返回文本特征

x = x[torch.arange(x.shape[0]), tokenized_prompts.argmax(dim=-1)] @ self.text_projection
这句代码有些困难，它是从经过 Transformer 编码的序列输出中，提取与 EOT（end of text）标记对应的特征，然后将其通过 self.text_projection 进行线性变换，生成最终的文本特征表示。我们逐步解析：

x = x[torch.arange(x.shape[0]), tokenized_prompts.argmax(dim=-1)] @ self.text_projection

分步解释：

torch.arange(x.shape[0]):
- torch.arange(x.shape[0]) 生成一个一维张量，包含从 0 到 x.shape[0] - 1 的整数序列。x.shape[0] 是批次大小（batch size），也就是这个张量的第一维度大小。
- 假设 x 的形状是 [batch_size, n_ctx, transformer_width]，其中：
  - batch_size 是批次大小。
  - n_ctx 是文本的上下文长度（即序列长度）。
  - transformer_width 是 transformer 模型的宽度。
tokenized_prompts.argmax(dim=-1):
- tokenized_prompts.argmax(dim=-1) 返回一个张量，其中包含了每个序列中最大值的位置索引。在这里，tokenized_prompts 是经过标记化的提示，其中 EOT 标记通常是最后一个标记，且其索引在每个序列中最大。
- 这个操作会为批次中的每个序列找到 EOT 标记的位置索引。
x[torch.arange(x.shape[0]), tokenized_prompts.argmax(dim=-1)]:
- 这一部分代码是对 x 进行索引操作。
- torch.arange(x.shape[0]) 生成的是一个范围索引，用来选择批次中的每个样本。
- tokenized_prompts.argmax(dim=-1) 生成的索引，用来选择每个序列中 EOT 标记所在的位置。
- 结果是一个形状为 [batch_size, transformer_width] 的张量，其中包含了每个序列中 EOT 标记对应的特征。
@ self.text_projection:
- @ 是 Python 中的矩阵乘法运算符。它表示将前面提取出来的 EOT 标记特征与 self.text_projection 进行矩阵乘法。
- self.text_projection 是一个投影矩阵，用于将 transformer 输出的特征向量投影到一个新的空间，通常用于降低维度或者进行线性变换。

总结：

这句代码的目的是从 transformer 编码后的序列中，提取每个序列的 EOT 标记（即文本结束标记）对应的特征，然后通过一个线性投影矩阵 self.text_projection 对这些特征进行变换，生成最终的文本特征表示。这种操作通常用于提取代表整个文本序列的特征向量，供后续任务使用，比如分类、对比学习等。

Aha_aho

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
CoOp代码中TextEncoder类解析

这句代码的目的是从 transformer 编码后的序列中，提取每个序列的 EOT 标记（即文本结束标记）对应的特征，然后通过一个线性投影矩阵对这些特征进行变换，生成最终的文本特征表示。这种操作通常用于提取代表整个文本序列的特征向量，供后续任务使用，比如分类、对比学习等。
复制链接

扫一扫