搞清楚TF中的Embedding

最新推荐文章于 2022-04-10 19:46:57 发布

Jun_2077

最新推荐文章于 2022-04-10 19:46:57 发布

阅读量1.1k

点赞数 1

分类专栏：机器翻译文章标签：机器翻译机器学习深度学习

本文链接：https://blog.csdn.net/weixin_45337615/article/details/109012250

版权

本文探讨了在机器学习和深度学习中引入Embedding的原因，主要是为了解决one-hot编码的效率低下和整数编码无法捕捉单词关系的问题。通过使用可训练的密集向量，Embedding能够提供更高效的单词表示。在TensorFlow中，Embedding工作原理类似全连接层，通过embedding_lookup函数实现。文章还提到在TF1.x中Embedding的实现细节，并指出在模型训练中遇到的词汇量变化导致的Embedding冲突问题，提出了可能的解决思路。

摘要由CSDN通过智能技术生成

参考的资料：
详解TF中的Embedding操作
 官网Embedding教程

文章目录

1.为什么引入Embedding

在对词汇表中单词进行编码时
若使用one-hot编码，存在以下问题：

编码效率低下，假设我们的词汇表中有 10,000 个单词。为了对每个单词进行独热编码，我们将创建一个其中 99.99% 的元素都为零的向量。

若使用唯一的数字编码每个单词，则存在以下问题：

整数编码是任意的，不会捕捉单词之间的任何关系，比如近义词或相同类型的词可能存在某种联系。
对于要解释的模型而言，整数编码颇具挑战。例如，线性分类器针对每个特征学习一个权重。由于任何两个单词的相似性与其编码的相似性之间都没有关系，因此这种特征权重组合没有意义。

因此我们使用Embedding，单词嵌入向量为我们提供了一种使用高效、密集表示的方法，其中相似的单词具有相似的编码。重要的是，我们不必手动指定此编码。嵌入向量是浮点值的密集向量（向量的长度是您指定的参数）。它们是可以训练的参数（模型在训练过程中学习的权重，与模型学习密集层权重的方法相同），无需手动为嵌入向量指定值。8 维的单词嵌入向量（对于小型数据集）比较常见，而在处理大型数据集时最多可达 1024 维。维度更高的嵌入向量可以捕获单词之间的细粒度关系，但需要更多的数据来学习。
在这里插入图片描述

2. Embedding的工作原理

Embedding的实质就是全连接层

在TF2中我们建立Embedding的表达式为：

tf.keras.layers.Embedding(vocab_size, embedding_dim)

其中vocab-size是需要编码的词的数量，可理解为上图中左边节点数量。embedding_dim则为右边节点数量。
假设一个特征有5个取值，即one-hot后变成5维，我们将其转换为embedding，其实就是将其one-hot后接入一个dence层。

例：
假设embedding层为Embedding(5, 10)
(1,) --> (1,5) --> (1,5) * (5, 10) --> (1,10)

2.1 由TF1进行Embedding过程解析

在tf1.x中，我们使用embedding_lookup函数来实现emedding，代码如下：

最低0.47元/天解锁文章

Jun_2077

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
搞清楚TF中的Embedding

参考资料：详解TF中的Embedding操作官网Embedding教程文章目录1.为什么引入Embedding2. Embedding的工作原理2.1 由TF1进行Embedding过程解析后续补充...总结1.为什么引入Embedding在对词汇表中单词进行编码时若使用one-hot编码，存在以下问题：编码效率低下，假设我们的词汇表中有 10,000 个单词。为了对每个单词进行独热编码，我们将创建一个其中 99.99% 的元素都为零的向量。若使用唯一的数字编码每个单词，则存在以下问题：
复制链接

扫一扫

专栏目录