获取步骤
input_ids
和attention_mask
是通过以下步骤获得的:
-
分词(Tokenization):
- 使用BERT模型提供的分词器(tokenizer)对原始文本进行分词。BERT的分词器通常是基于WordPiece算法,它能够将文本分割成更小的单元,称为子词(subwords)。
- 分词器还会添加特殊标记,如[CLS](分类)标记在序列的开始,以及[SEP](分隔)标记在序列的结束和两个句子之间(如果是句子对任务)。
-
转换为ID:
- 分词后得到的是标记(tokens)序列,接下来需要将这些标记转换为对应的ID。这些ID是BERT词汇表中的索引,词汇表包含了所有可能的标记。
- 这一步是通过查找词汇表来完成的,每个标记都被替换为其对应的ID。
-
创建
input_ids
:input_ids
是一个整数列表,包含了输入序列中每个标记的ID。
-
创建
attention_mask
:attention_mask
也是一个整数列表,用于指示哪些位置是实际的标记,哪些是填充的。<