NLP
文章平均质量分 94
自然语言处理相关
wuzqchom
这个作者很懒,什么都没留下…
展开
-
常见Transformer位置编码
相对于RNN这样的序列模型来说,Transformer可并行是一个很大的优势。但可并行性带来一个问题,由于不是从前到后,所以模型对于位置信息是不敏感的。于是在Transformer最早提出时就定义了位置编码(Positional Encodings)的概念,本文章旨在介绍常见位置编码方式。原创 2024-10-31 20:35:21 · 605 阅读 · 0 评论 -
tokenization(二)子词切分方法
接上回,子词词元化(Subwords tokenization)是平衡字符级别和词级别的一种方法,也是目前用得最多的方法。子词词元化的目标有2个:● 常见词不应该切分为更小的单元● 罕见词应该被分解为有意义的子词。原创 2024-06-16 21:34:15 · 1020 阅读 · 0 评论 -
tokenization(一)概述
tokenization是包括大语言模型在内所有自然语言处理的任务的基础步骤,其目标是将文本数据转化为数值。包括:基于词的方法、基于字符的方法和基于子词的方法。原创 2024-06-10 16:37:49 · 640 阅读 · 0 评论