Embedding理解

Java阿忠

于 2024-03-21 15:56:14 发布

阅读量534

点赞数 18

分类专栏： NLP 文章标签： embedding

本文链接：https://blog.csdn.net/weixin_45664361/article/details/136911419

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

one-hot概念

在NLP中，通常使用one-hot的形式将类别变量（理解为输入的一句话）编码成二进制序列向量，这种编码中，每个类别都被表示为一个"除了单个位置为1，其他位置都为0"的向量。
例如我们可以为每个字母定义一个26维的one-hot向量，如’a’表示为[1, 0, 0, …, 0]，'b’表示为[0, 1, 0, …, 0]，以此类推。
在表示’Embedding’时，我们可以使用这些向量组成一个稀疏矩阵

‘e’: [0, 0, 0, 0, 1, 0, …, 0]
‘m’: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, …, 0]
‘b’: [0, 1, 0, …, 0]
‘e’: [0, 0, 0, 0, 1, 0, …, 0]
‘d’: [0, 0, 0, 1, 0, …, 0]
‘d’: [0, 0, 0, 1, 0, …, 0]
‘i’: [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, …, 0]
‘n’: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, …, 0]
‘g’: [0, 0, 0, 0, 0, 0, 1, 0, …, 0]
即一个9*26的矩阵

引入

使用以上表示一篇文章时，缺点也随之而来：过于稀疏，过度占用资源
这时就引入Embedding层了，直译是嵌入式、嵌入层的意思，概念上讲就是将高维的数据映射到一个相对低维的连续向量空间中，简单来说就是将复杂矩阵降维为一个相对简单的矩阵
假设有一个2 * 6的矩阵，然后乘上一个6 * 3的矩阵，就会变成2 * 3的矩阵，如以下
$\begin{pmatrix} a_{11} & a_{12} & a_{13} & a_{14} & a_{15} & a_{16} \\ a_{21} & a_{22} & a_{23} & a_{24} & a_{25} & a_{26} \end{pmatrix} \begin{bmatrix} b_{11} & b_{12} & b_{13} \\ b_{21} & b_{22} & b_{23} \\ b_{31} & b_{32} & b_{33} \\ b_{41} & b_{42} & b_{43} \\ b_{51} & b_{52} & b_{53} \\ b_{61} & b_{62} & b_{63} \end{bmatrix} = \begin{pmatrix} c_{11} & c_{12} & c_{13} \\ c_{21} & c_{22} & c_{23} \end{pmatrix}$
其中，

$c_{11} = a_{11}b_{11} + a_{12}b_{21} + a_{13}b_{31} + a_{14}b_{41} + a_{15}b_{51} + a_{16}b_{61}$
$c_{12} = a_{11}b_{12} + a_{12}b_{22} + a_{13}b_{32} + a_{14}b_{42} + a_{15}b_{52} + a_{16}b_{62}$
$c_{13} = a_{11}b_{13} + a_{12}b_{23} + a_{13}b_{33} + a_{14}b_{43} + a_{15}b_{53} + a_{16}b_{63}$
$c_{21} = a_{21}b_{11} + a_{22}b_{21} + a_{23}b_{31} + a_{24}b_{41} + a_{25}b_{51} + a_{26}b_{61}$
$c_{22} = a_{21}b_{12} + a_{22}b_{22} + a_{23}b_{32} + a_{24}b_{42} + a_{25}b_{52} + a_{26}b_{62}$
$c_{23} = a_{21}b_{13} + a_{22}b_{23} + a_{23}b_{33} + a_{24}b_{43} + a_{25}b_{53} + a_{26}b_{63}$

以上C矩阵为降维后的矩阵，而降维的原理就是矩阵乘法
其他延伸关键词还有Word Embedding（词嵌入）、Entity Embedding（实体嵌入）、Image Embedding（图片嵌入）等等

相关

词嵌入.维基百科
 一文读懂Embedding的概念，以及它和深度学习的关系

Java阿忠

关注

18
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Embedding理解

例如我们可以为每个字母定义一个26维的one-hot向量，如’a’表示为[1, 0, 0, …, 0]，'b’表示为[0, 1, 0, …, 0]，以此类推。的形式将类别变量（理解为输入的一句话）编码成二进制序列向量，这种编码中，每个类别都被表示为一个"除了单个位置为1，其他位置都为0"的向量。假设有一个2 * 6的矩阵，然后乘上一个6 * 3的矩阵，就会变成2 * 3的矩阵，如以下。层了，直译是嵌入式、嵌入层的意思，概念上讲就是。以上C矩阵为降维后的矩阵，而降维的原理就是。，简单来说就是将复杂矩阵。
复制链接

扫一扫