NLP的tokenization

江汉似年

已于 2023-08-22 15:51:26 修改

阅读量539

点赞数

分类专栏： NLP 文章标签： NLP

于 2023-08-19 10:24:04 首次发布

本文链接：https://blog.csdn.net/yumao1/article/details/132377038

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细介绍了BPE（BytePairEncoding）算法，一种无监督的统计分词方法，用于文本分解为子词，特别强调了其在GPT3.5中的应用，以及如何自适应地处理未登录词。BPE在机器翻译和NLP面试中常见，展示了其在处理文本数据中的关键作用。

摘要由CSDN通过智能技术生成

GPT3.5的tokenization流程如上图所示，以下是chatGPT对BPE算法的解释：

BPE（Byte Pair Encoding）编码算法是一种基于统计的无监督分词方法，用于将文本分解为子词单元。它的原理如下：

1. 初始化：将文本中的每个字符视为一个单词，并统计每个字符出现的频率。这些字符可以是字母、标点符号或其他任意字符。

2. 统计频率：在每次迭代中，计算每对相邻字符（或字符序列）的频率，并记录最常出现的一对。

3. 合并频率最高的一对：将频率最高的字符对合并成一个新的字符（或字符序列），并将其作为新的单词。同时，更新字符频率统计。

4. 重复步骤2和3：重复执行步骤2和3，直到达到预定的子词数量或达到指定的迭代次数。

5. 构建词表：将合并得到的字符组合形成的新单词添加到词表中。

6. 分词：使用得到的词表将文本分解为子词单元。

BPE算法的核心思想是通过反复合并频率最高的字符对来构建子词单元。这样做的好处是可以将常见的词汇合并为一个单元，同时也能够处理未登录词（OOV）问题，即将未在训练集中出现过的词拆解为可识别的子词。

BPE算法的优点是可以自适应地根据数据集构建词表，而不需要依赖外部词典。它在机器翻译、文本生成等自然语言处理任务中得到广泛应用。

BPE采用了一种贪婪的思想来生成token，以下博客举例解释了BPE算法的迭代过程

理解NLP最重要的编码方式 — Byte Pair Encoding (BPE)，这一篇就够了 - 知乎在machine learning，尤其是NLP的算法面试时，Byte Pair Encoding (BPE) 的概念几乎成了一道必问的题，然而尴尬的是，很多人用过，却未必十分清楚它的概念（调包大法好）。本文将由浅入深地介绍BPE算法背后的思想…https://zhuanlan.zhihu.com/p/424631681

江汉似年

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP的tokenization

在machine learning，尤其是NLP的算法面试时，Byte Pair Encoding (BPE) 的概念几乎成了一道必问的题，然而尴尬的是，很多人用过，却未必十分清楚它的概念（调包大法好）。这样做的好处是可以将常见的词汇合并为一个单元，同时也能够处理未登录词（OOV）问题，即将未在训练集中出现过的词拆解为可识别的子词。3. 合并频率最高的一对：将频率最高的字符对合并成一个新的字符（或字符序列），并将其作为新的单词。1. 初始化：将文本中的每个字符视为一个单词，并统计每个字符出现的频率。
复制链接

扫一扫

专栏目录