- 博客(1)
- 收藏
- 关注
原创 Pytorch Transformer Tokenizer常见输入输出实战详解
Tokenizer简介和工作流程Transformers,以及基于BERT家族的预训练模型+微调模式已经成为NLP领域的标配。而作为文本数据预处理的主要方法-Tokenizer(分词器)则成为了必不可少的工具。本篇文章以Transformers中使用的AutoTokenizer为例说明其用法。但如果实际场景中使用BERT、ALBERT等预训练模型,原理类似,但需要使用模型相对应的Tokenizer,例如transformers.BertModel对应的Tokenizer是transformers.Ber
2022-01-04 18:51:09 24739 9
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人