原论文链接: https://arxiv.org/abs/1508.07909
参考paperweekly关于分词的一个总结:https://zhuanlan.zhihu.com/p/22700538
这篇文章主要解决的问题是OOV(Out of Vocabulary)问题,最小粒度介于word和character之间,利用BPE算法进行分词。
BPE算法的主要实现如图:
import re, collections
def get_stats(vocab):
pairs = collections.defaultdict(int)
for word, freq in vocab.items():
symbols = word.split()
for i in range(len