(自用笔记)Word Embedding原理和Pytorch实现

参考:
(1)从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 - 知乎 (zhihu.com)
(2)吴恩达深度学习
(3)deep_thoughts老师的原理和代码讲解:https://space.bilibili.com/373596439越是底层的特征越是所有不论什么领域的图像都会具备的比如边角线弧线等底层基础特征,越往上抽取出的特征越与手头任务相关。正因为此,所以预训练好的网络参数,尤其是底层的网络参数抽取出特征跟具体任务越无关,越具备任务的通用性

Word representation 词汇表征

单词的语义表征

稀疏式
one-hot encoding(维度太大)
分布式(连续浮点型的向量,长度固定)
类似于word embedding,各种embedding
应用场景
word/character/phrase/sentence/paragraph embedding
speaker/user/item embedding

基于词的one-hot的缺点:每个词孤立的分开,导致模型对相关词的泛化能力不强

image

image

将词标识为特征向量

转换为二维表示:t-SNE

image

WE Word Embedding

image

Word Embedding的特征

一个简单的例子:

已知man-woman,给出king找到对应的词

image

eman - ewoman ≈ eking - equeen

这是因为在特征向量表示中,main,woman,king,queen的差异主要由Gender决定

词特征向量相似度

image

t-SNE转换为二维标识后很多无法再明显显示为平行四边形

常用的相似度函数:余弦相似度

image

embedding matrix

当使用模型学习词嵌入时,实际上是在学习一个词嵌入矩阵

image

one-hot大部分为0,所以矩阵相乘的的效率在实际应用中太低

  1. 词汇表大小(Vocabulary Size): 这是用于训练 word embedding 的语料库中唯一单词的数量。假设词汇表大小为 V

  2. 词向量维度(Embedding Dimension): 这是将每个单词映射到的连续向量空间的维度。假设词向量维度为 D

    词向量维度通常是作为一个超参数(hyperparameter)在训练 word embedding 模型时手动指定的。选择词向量维度的过程通常是基于经验和任务需求的。较小的词向量维度可能会捕捉到更少的语义信息,而较大的词向量维度可能会包含更丰富的语义信息,但同时也会增加模型的复杂度和计算成本。

    一般来说,通常将词向量维度设置在 100 到 300 之间。常见的选择包括 50、100、200 或 300 维。

WE的问题

word embedding无法区分多义词的不同语义

用语言模型训练的时候,不论什么上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值