【Flux 拆解(1)】CLIP 和 T5 的 Tokenizer 异同

最新推荐文章于 2025-03-27 15:06:09 发布

多恩Stone

最新推荐文章于 2025-03-27 15:06:09 发布

阅读量2.6k

点赞数 32

分类专栏： AIGC Transformer Diffusion 文章标签： pytorch 人工智能 python AIGC diffusers stable diffusion Flux

本文链接：https://blog.csdn.net/weixin_44212848/article/details/142690230

版权

AIGC 同时被 3 个专栏收录

92 篇文章

订阅专栏

Diffusion

55 篇文章

订阅专栏

Transformer

28 篇文章

订阅专栏

本系列将以 Flux-dev 为例，详细拆解各个部分的细节和重点。

Flux 整体框架图如下，来源于: 《Stable Diffusion 3「精神续作」FLUX.1 源码深度前瞻解读》
在这里插入图片描述

Tokenizer 是什么?

标记器(Tokenizer)是 NLP 管道的核心组件之一。它们有一个目的：将文本转换为模型可以处理的数据。模型只能处理数字，因此标记器(Tokenizer)需要将我们的文本输入转换为数字数据¹。

特性	CLIP Tokenizer	T5 Tokenizer
编码方式	BPE	Unigram
用途	更关注多模态任务	设计目标是通用的文本任务
实现工具	类似 GPT-2 的实现	SentencePiece

代码层面的异同

函数 / 作用	CLIPTokenizer	T5TokenizerFast
add_tokens	扩充词表	扩充词表
encode	将文本编码	将文本编码
convert_tokens_to_ids	类似 GPT-2 的实现	SentencePiece

T5TokenizerFast 的 add_tokens

T5TokenizerFast 继承了 PreTrainedTokenizerFast 中的 add_tokens，
从下面的代码可以找到具体的 add_tokens。由于我们新加的 token 并不是 special_tokens（bos_token、eos_token等），所以直接 return self._tokenizer.add_tokens(new_tokens)

 def _add_tokens(self, new_tokens: List[Union[str, AddedToken]], special_tokens=False) -> int:
     if special_tokens:
         return self._tokenizer.add_special_tokens(new_tokens)

     return self._tokenizer.add_tokens(new_tokens)

# 位于 /path/lib/python3.12/site-packages/transformers/tokenization_utils_fast.py

add_tokens 最终调用的 PreTrainedTokenizerFast 中继承的 PreTrainedTokenizerBase

    def add_tokens(
        self, new_tokens: Union[str, AddedToken, List[Union[str, AddedToken]]], special_tokens: bool = False
    ) -> int:

        if not new_tokens:
            return 0

        if not isinstance(new_tokens, (list, tuple)):
            new_tokens = [new_tokens]

        return self._add_tokens(new_tokens, special_tokens=special_tokens)

    def _add_tokens(self, new_tokens: Union[List[str], List[AddedToken]], special_tokens: bool = False) -> int:
        raise NotImplementedError

# 位于 /path/lib/python3.12/site-packages/transformers/tokenization_utils_base.py