WordPiece、BPE详解及代码

最新推荐文章于 2025-10-10 23:22:39 发布

原创最新推荐文章于 2025-10-10 23:22:39 发布 · 9.5k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#nlp #自然语言处理

上学专栏收录该内容

21 篇文章

订阅专栏

BPE（Byte-Pair Encoding）是一种通过合并常见字符对减少词汇表大小的自然语言处理技术，常用于解决OOV问题。本文详细介绍了BPE算法的作用、工作原理、代码实现及其适用范围，特别指出BPE在欧美语言处理中的应用，而中文通常使用分词或分字方法。

1.BPE是干什么用的？

WordPiece字面理解是把word拆成piece一片一片，其实就是这个意思。
WordPiece的一种主要的实现方式叫做BPE（Byte-Pair Encoding）双字节编码。
“loved”,“loving”,“loves"这三个单词。其实本身的语义都是“爱”的意思，但是如果我们以单词为单位，那它们就算不一样的词，在英语中不同后缀的词非常的多，就会使得词表变的很大，训练速度变慢，训练的效果也不是太好。
BPE算法通过训练，能够把上面的3个单词拆分成"lov”,“ed”,“ing”,"es"几部分，这样可以把词的本身的意思和时态分开，有效的减少了词表的数量。

BPE的作用如下：

1.传统词表示方法无法很好的处理未知或罕见的词汇（OOV问题：out of vocabulary）

2.传统词tokenization方法不利于模型学习词缀之前的关系

3.Character embedding作为OOV的解决方法粒度太细

4.Subword粒度在词与字符之间，能够较好的平衡OOV问题

2.BPE算法

1.准备足够大的训练语料

2.确定期望的subword词表大小

3.将单词拆分为字符序列并在末尾添加后缀“ </ w>”，统计单词频率。本阶段的subword的粒度是字符。例如，“ low”的频率为5，那么我们将其改写为“ l o w </ w>”：5
(备注：为什么加入"< /w >"在解码阶段有说明)

4.统计每一个连续字节对的出现频率，选择最高频者合并成新的subword

5.重复第4步直到达到第2步设定的subword词表大小或下一个最高频的字节对出现频率为1

例子

{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w e s t </w>': 6, 'w i d e s t </w>': 3}

Iter 1, 最高频连续字节对"e"和"s"出现了6+3=9次，合并成"es"。输出：
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w es t </w>': 6, 'w i d es t </w>': 3}

Iter 2, 最高频连续字节对"es"和"t"出现了6+3=9次, 合并成"est"。输出：
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w est </w>': 6, 'w i d est </w>': 3}

Iter 3, 以此类推，最高频连续字节对为"est"和"</w>" 输出：
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w est</w>': 6, 'w i d est</w>': 3}

Iter n, 继续迭代直到达到预设的subword词表大小或下一个最高频的字节对出现频率为1。

说明
每次合并后词表可能出现3种变化：

+1，表明加入合并后的新字词，同时原来在2个子词还保留（2个字词不是完全同时连续出现）

+0，表明加入合并后的新字词，同时原来2个子词中一个保留，一个被消解（一个字词完全随着另一个字词的出现而紧跟着出现）

-1，表明加入合并后的新字词，同时原来2个子词都被消解（2个字词同时连续出现）

实际上，随着合并的次数增加，词表大小通常先增加后减小。

3.BPE代码实现


import re, collections
 
 
def get_stats(vocab):
    pairs = collections.defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols)-1):
            pairs[symbols[i],symbols[i+1]] += freq
    return pairs
 
 
def merge_vocab(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out
 
 
vocab = {'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w e s t </w>': 6, 'w i d e s t </w>': 3}
num_merges = 1000
for i in range(num_merges):
    pairs = get_stats(vocab)
    if not pairs:
        break
    best = max(pairs, key=pairs.get)
    vocab = merge_vocab(best, vocab)
    print(best)
 
 
# print output
# ('e', 's')
# ('es', 't')
# ('est', '</w>')
# ('l', 'o')
# ('lo', 'w')
# ('n', 'e')
# ('ne', 'w')
# ('new', 'est</w>')
# ('low', '</w>')
# ('w', 'i')
# ('wi', 'd')
# ('wid', 'est</w>')
# ('low', 'e')
# ('lowe', 'r')
# ('lower', '</w>')

编码：构建完词表之后，对词表按照长度进行排序。对于要预训练的text，先将其按照词表的顺序进行分解(即编码)。
如下例子：


# 给定单词序列
[“the</w>”, “highest</w>”, “mountain</w>”]
 
# 假设已有排好序的subword词表
[“errrr</w>”, “tain</w>”, “moun”, “est</w>”, “high”, “the</w>”, “a</w>”]
 
# 迭代结果
"the</w>" -> ["the</w>"]
"highest</w>" -> ["high", "est</w>"]
"mountain</w>" -> ["moun", "tain</w>"]

解码：

# 编码序列
[“the</w>”, “high”, “est</w>”, “moun”, “tain</w>”]
 

# 解码序列
“the</w> highest</w> mountain</w>”

直接拼接起来，"< /w >"就可以隔离开不同的单词。所以，加入"< /w >"是为了在解码阶段隔离开不同的单词。

4.适用范围

BPE一般适用在欧美语言，因为欧美语言大多是字符形式，涉及前缀、后缀的单词比较多。而中文的汉字一般不用BPE进行编码，因为中文是字无法进行拆分。对中文的处理通常只有分词和分字两种。理论上分词效果更好，更好的区别语义。分字效率高、简洁，因为常用的字不过3000字，词表更加简短。
参考链接：
一文读懂BERT中的WordPiece
NLP Subword三大算法原理：BPE、WordPiece、ULM