代码解读-自然语言处理

最新推荐文章于 2024-09-30 08:12:50 发布

赵孝正

最新推荐文章于 2024-09-30 08:12:50 发布

阅读量316

点赞数

分类专栏： # 1. 自然语言处理&知识图谱文章标签：自然语言处理 easyui 人工智能

本文链接：https://blog.csdn.net/weixin_46713695/article/details/133997974

版权

1. 自然语言处理&知识图谱专栏收录该内容

25 篇文章 5 订阅

订阅专栏

demo3文本转为向量

代码

from tensorflow.keras.preprocessing.text import Tokenizer  # 标记器(每一个词，以我们的数值做映射，)

words = ['LaoWang has a Wechat account.', 'He is not a nice person.', 'Be careful.']  # 把这句话中每一个单词，映射成我们的数值
tokenizer = Tokenizer(num_words=15)  # 上面三句话中，词的总数不超过 15 个（估算的值）， num_words 设置单词的数量
tokenizer.fit_on_texts(words)
word_index = tokenizer.word_index
print(word_index, len(word_index))
# 把文本转化为序列编码
sequences = tokenizer.texts_to_sequences(words)
print(sequences)
# 文本转化为矩阵
one_hot_matrix = tokenizer.texts_to_matrix(words, mode='binary')
# 向量化是构建神经网络的第一步
print(tokenizer.word_index.keys())
print(one_hot_matrix, one_hot_matrix.shape)

解读

这段代码使用tensorflow的keras库中的Tokenizer类对文本数据进行预处理。让我们逐步解读这段代码：

导入必要的库

from tensorflow.keras.preprocessing.text import Tokenizer

这行代码导入了Tokenizer类，这是一个用于文本标记化的工具，可以将每个词映射到一个数值。

定义文本数据

words = ['LaoWang has a Wechat account.', 'He is not a nice person.', 'Be careful.']

这里定义了一个包含三个句子的列表。

初始化标记器

tokenizer = Tokenizer(num_words=15)

这里创建了一个Tokenizer对象，设置了最大的单词数为15。这意味着它只会考虑频率最高的15个单词。

适应数据

tokenizer.fit_on_texts(words)

这行代码会将定义的句子列表传给标记器，使其学习句子中的单词及其频率。

获取词到索引的映射

word_index = tokenizer.word_index
print(word_index, len(word_index))

这里获取了每个词及其对应的索引，并打印它们。len(word_index)将显示总共有多少个唯一单词。

将文本转化为序列编码

sequences = tokenizer.texts_to_sequences(words)
print(sequences)

此行代码将原始句子转化为整数序列，每个整数对应句子中的一个单词。例如，如果“LaoWang”对应的索引是1，则“LaoWang”在序列中将被替换为1。

文本转化为矩阵

one_hot_matrix = tokenizer.texts_to_matrix(words, mode='binary')

这行代码将句子转换为二进制矩阵。如果一个词在句子中，那么它的位置为1，否则为0。

显示单词和矩阵

print(tokenizer.word_index.keys())
print(one_hot_matrix, one_hot_matrix.shape)

这两行代码首先打印出所有的单词，然后打印出转化后的二进制矩阵以及它的形状。

综上所述，这段代码的主要目的是展示如何使用Tokenizer进行文本的预处理，从而为后续的神经网络模型做准备。

给出每一步的输出

在每行代码的末尾添加注释，以描述其执行后的结果。

from tensorflow.keras.preprocessing.text import Tokenizer

words = ['LaoWang has a Wechat account.', 'He is not a nice person.', 'Be careful.']  # words = ['LaoWang has a Wechat account.', 'He is not a nice person.', 'Be careful.']

tokenizer = Tokenizer(num_words=15)  # 初始化了一个 Tokenizer 对象

tokenizer.fit_on_texts(words)  # 这里没有直接的输出，它只是让 tokenizer 学习 words 的内容

word_index = tokenizer.word_index  
print(word_index, len(word_index))  # 输出 word_index 的内容和它的长度, 例如: {'laowang': 1, 'has': 2,...} 12

sequences = tokenizer.texts_to_sequences(words)
print(sequences)  # 输出 sequences, 例如: [[1, 2, 3, 4, 5], [6, 7, 8, 3, 9, 10], [11, 12]]

one_hot_matrix = tokenizer.texts_to_matrix(words, mode='binary')
# 没有直接的输出，但 one_hot_matrix 会变成一个二进制矩阵

print(tokenizer.word_index.keys())  # 输出 word_index 的所有键，例如: dict_keys(['laowang', 'has',...])
print(one_hot_matrix, one_hot_matrix.shape)  # 输出 one_hot_matrix 的内容和形状, 例如: [[0., 1., 1., ...], ...] (3, 15)