![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
LLM
文章平均质量分 94
wuzqchom
这个作者很懒,什么都没留下…
展开
-
tokenization(二)子词切分方法
接上回,子词词元化(Subwords tokenization)是平衡字符级别和词级别的一种方法,也是目前用得最多的方法。子词词元化的目标有2个:● 常见词不应该切分为更小的单元● 罕见词应该被分解为有意义的子词。原创 2024-06-16 21:34:15 · 936 阅读 · 0 评论 -
tokenization(一)概述
tokenization是包括大语言模型在内所有自然语言处理的任务的基础步骤,其目标是将文本数据转化为数值。包括:基于词的方法、基于字符的方法和基于子词的方法。原创 2024-06-10 16:37:49 · 574 阅读 · 0 评论