Keras库中的embedding方法随笔

最新推荐文章于 2023-12-09 23:43:50 发布

Drake8023

最新推荐文章于 2023-12-09 23:43:50 发布

阅读量95

点赞数

文章标签： keras embedding 人工智能

本文链接：https://blog.csdn.net/weixin_43593173/article/details/133321699

版权

Keras embedding

text mining - How does Keras ‘Embedding’ layer work? - Cross Validated (stackexchange.com)

keras.layers.Embedding(input_dim, output_dim, embeddings_initializer='uniform', embeddings_regularizer=None, activity_regularizer=None, embeddings_constraint=None, mask_zero=False, input_length=None)

embedding层主要作用就是将文本编码成的稀疏向量映射到稠密向量中提高效率。

必要参数：

input_dim: int > 0。词汇表大小，输入维度，整数表示即，最大整数 index + 1。（1000则代表编码后的输入有999个词）
output_dim: int >= 0。词向量的维度
input_length: 输入序列的长度

在进入embeding层之前要对原始文档进行整数编码，一般使用one_hot编码或者整数编码（tokenize）

整数编码：

构建词汇表（Vocabulary）：首先，需要构建一个词汇表，其中包含了数据集中所有不重复的单词或标记。

分配整数值：为词汇表中的每个单词分配一个唯一的整数值，通常从1开始分配。例如，第一个单词可以分配整数1，第二个单词分配整数2，依此类推。

编码文本数据：对于文本数据中的每个单词，使用词汇表中的整数值来表示它。将文本数据中的单词替换为它们在词汇表中的整数编码

之后对输入句子进行编码[word1,word2,wordn]——> [0,1,49999]

缺陷是单词之间无法相关联

word id frequence
word1 0 1234
word2 1 12323
…
wordn 49999 4324

one_hot编码：

构建词汇表（Vocabulary）：与整数编码一样，首先需要构建一个词汇表。

分配唯一索引：为词汇表中的每个单词分配一个唯一的索引，通常从0开始分配。

独热编码：对于文本数据中的每个单词，使用一个长度等于词汇表大小的向量来表示它。将单词的索引位置设为1，其余位置设为0。

机器学习：数据预处理之独热编码（One-Hot）_keras 热编码是什么意思_生活甜甜好运连连的博客-CSDN博客