tf.contrib.learn.preprocessing.VocabularyProcessor 用法实例

最新推荐文章于 2020-06-03 22:28:24 发布

梧桐林木

最新推荐文章于 2020-06-03 22:28:24 发布

阅读量1.6k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/wu18663419760/article/details/79860259

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

该方法是建立中文词汇表和把文本转为词ID序列。


tf.contrib.learn.preprocessing.VocabularyProcessor (max_document_length, min_frequency=0, vocabulary=None, tokenizer_fn=None)

参数：
max_document_length: 文档的最大长度。如果文本的长度大于最大长度，那么它会被剪切，反之则用0填充。
min_frequency: 词频的最小值，出现次数小于最小词频则不会被收录到词表中。
vocabulary: CategoricalVocabulary 对象。
tokenizer_fn：分词函数

代码：

from tensorflow.contrib import learn
import numpy as np
max_document_length = 4
x_text =[
'i love you',
'me too'
]
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)
vocab_processor.fit(x_text)
print next(vocab_processor.transform(['i me too'])).tolist()
x = np.array(list(vocab_processor.fit_transform(x_text)))
print x