Tensorflow2.0之tfds.features.text.SubwordTextEncoder.build_from_corpus（）

最新推荐文章于 2022-04-27 22:25:29 发布

辰溪0502

最新推荐文章于 2022-04-27 22:25:29 发布

阅读量2.3k

点赞数 4

文章标签： python 自然语言处理 tensorflow 深度学习

本文链接：https://blog.csdn.net/weixin_43788143/article/details/107902543

版权

tfds.features.text.SubwordTextEncoder.build_from_corpus（） Tensorflow官网解释
该函数的功能就是把我们的文本做成类似字典的结构，既每个字都有对应的唯一数字

# Build
encoder = tfds.features.text.SubwordTextEncoder.build_from_corpus(
    corpus_generator, target_vocab_size=2**15)
encoder.save_to_file(vocab_filename)

# Load
encoder = tfds.features.text.SubwordTextEncoder.load_from_file(vocab_filename)
ids = encoder.encode("hello world")
text = encoder.decode([1, 2, 3, 4])

这里面主要有两个参数。一个是corpus_generator既生成器。就是把我们所需要编码的文本。一个是target_vocab_size既我们大概要需要多少词汇。
在这里插入图片描述
如图所示这个函数有两个主要的属性。一个是encode编码模式，把我们的文本转化为向量。一个是decode模型，把向量转化为文本。