(自用笔记)Word Embedding原理和Pytorch实现

最新推荐文章于 2025-02-18 10:48:03 发布

ziggybowie

最新推荐文章于 2025-02-18 10:48:03 发布

阅读量979

点赞数 6

文章标签：笔记 word embedding pytorch 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ziggybowie/article/details/137284114

版权

参考：
(1)从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 - 知乎 (zhihu.com)
(2)吴恩达深度学习
(3)deep_thoughts老师的原理和代码讲解：https://space.bilibili.com/373596439越是底层的特征越是所有不论什么领域的图像都会具备的比如边角线弧线等底层基础特征，越往上抽取出的特征越与手头任务相关。正因为此，所以预训练好的网络参数，尤其是底层的网络参数抽取出特征跟具体任务越无关，越具备任务的通用性

Word representation 词汇表征

单词的语义表征

稀疏式
one-hot encoding(维度太大)
分布式(连续浮点型的向量，长度固定)
类似于word embedding，各种embedding
应用场景
word/character/phrase/sentence/paragraph embedding
speaker/user/item embedding

基于词的one-hot的缺点：每个词孤立的分开，导致模型对相关词的泛化能力不强

将词标识为特征向量

转换为二维表示：t-SNE

WE Word Embedding

Word Embedding的特征

一个简单的例子：

已知man-woman，给出king找到对应的词

eman - ewoman ≈ eking - equeen

这是因为在特征向量表示中，main，woman，king，queen的差异主要由Gender决定

词特征向量相似度

t-SNE转换为二维标识后很多无法再明显显示为平行四边形

常用的相似度函数：余弦相似度

embedding matrix

当使用模型学习词嵌入时，实际上是在学习一个词嵌入矩阵

one-hot大部分为0，所以矩阵相乘的的效率在实际应用中太低

词汇表大小(Vocabulary Size)： 这是用于训练 word embedding 的语料库中唯一单词的数量。假设词汇表大小为 V。
词向量维度(Embedding Dimension)： 这是将每个单词映射到的连续向量空间的维度。假设词向量维度为 D。

词向量维度通常是作为一个超参数(hyperparameter)在训练 word embedding 模型时手动指定的。选择词向量维度的过程通常是基于经验和任务需求的。较小的词向量维度可能会捕捉到更少的语义信息，而较大的词向量维度可能会包含更丰富的语义信息，但同时也会增加模型的复杂度和计算成本。

一般来说，通常将词向量维度设置在 100 到 300 之间。常见的选择包括 50、100、200 或 300 维。

WE的问题

word embedding无法区分多义词的不同语义

用语言模型训练的时候，不论什么上

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。