数据准备——词元化（分词）

什么都不太懂的程序员

已于 2024-04-30 10:39:46 修改

阅读量660

点赞数 22

文章标签：语言模型人工智能自然语言处理

于 2024-04-30 10:37:41 首次发布

本文链接：https://blog.csdn.net/weixin_43915730/article/details/138336838

版权

词元化（分词）

BPE 分词
WordPiece 分词
Unigram 分词
分词器的选用

词元化（Tokenization）是数据预处理中的一个关键步骤，旨在将原始文本分割成模型可识别和建模的词元序列，作为大语言模型的输入数据。传统自然语言处理研究（如基于条件随机场的序列标注）主要使用基于词汇的分词方法，这种方法更符合人类的语言认知。然而，基于词汇的分词在某些语言（如中文分词）中可能对于相同的输入产生不同的分词结果，导致生成包含海量低频词的庞大词表，还可能存在未登录词（Out-of-vocabulary, OOV）等问题。因此，一些语言模型开始采用字符作为最小单位来分词。例如，ELMo 采用了 CNN 词编码器。最近，子词分词器（Subword Tokenizer）被广泛应用于基于 Transformer 的语言模型中，包括 BPE 分词、WordPiece 分词和 Unigram 分词三种常见方法。作为一个很好的学习资源，Hugging Face 也维护了一个在线自然语言处理课程1，其中的分词部分提供了非常具体的演示实例，我们推荐初学者可以参考学习。下面，我们简要介绍三种代表性的词元化方法。

BPE 分词

在 1994 年，BPE 算法被提出，最早用于通用的数据压缩。随后，自然语言处理领域的研究人员将其进行适配，并应用于文本分词。BPE 算法从一组基本符号（例如字母和边界字符）开始，迭代地寻找语料库中的两个相邻词元，并将它们替换为新的词元，这一过程被称为合并。合并的选择标准是计算两个连续词元的共现频率，也就是每次迭代中，最频繁出现的一对词元会被选择与合并。合并过程将一直持续达到预定义的词表大小。

字节级别的 BPE（Byte