tfds.features.text.SubwordTextEncoder.build_from_corpus() Tensorflow官网解释
该函数的功能就是把我们的文本做成类似字典的结构,既每个字都有对应的唯一数字
# Build
encoder = tfds.features.text.SubwordTextEncoder.build_from_corpus(
corpus_generator, target_vocab_size=2**15)
encoder.save_to_file(vocab_filename)
# Load
encoder = tfds.features.text.SubwordTextEncoder.load_from_file(vocab_filename)
ids = encoder.encode("hello world")
text = encoder.decode([1, 2, 3, 4])
这里面主要有两个参数。一个是corpus_generator既生成器。就是把我们所需要编码的文本。一个是target_vocab_size既我们大概要需要多少词汇。
如图所示 这个函数有两个主要的属性。一个是encode编码模式,把我们的文本转化为向量。一个是decode模型,把向量转化为文本。