word embedding

一 词汇表征(word presentation)
为什么要用word embeddings
one-hot 可以体现不同词,但是任意两个之间的成绩都为0,不能体现其特殊性,如果将之嵌入到能体现特点的向量中,可以体现例如 apple juice其之间的相似性,以此类推即可。
在这里插入图片描述在这里插入图片描述在这里插入图片描述
二 词嵌入使用
用处,根据在训练集中存在的例如 an orange framer 推断出来得到 durian cultivator。 根据数据集中的已经存在的某些词,可以推断出来未知的某些词的意思,或者大概用处。
词嵌入使用方法:
1 从大量文本集中学习词嵌入。 文本集比较大,一般可以从网上下载,有许可。
2 将你的单词 嵌入到300维的词嵌入中。
3 根据情况,如果你的单词量比较大,则需要进行微调,如果不大 ,则不需要。

词嵌入在命名实体识别 文本摘要 文本解析 指代消解 中使用较多。
语言模型 机器翻译使用较少。

人脸识别算法设计的问题就是会有成千上万的不同的人脸,而自然语言处理涉及到的词汇表是固定的。在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
三 词嵌入的特性
词嵌入特性就是可以帮助实现类比推理。
在这里插入图片描述在这里插入图片描述在这里插入图片描述
四/嵌入矩阵

嵌入矩阵在本例中为E 为 300X10000的矩阵,E与之前的one-hot 10000X1 矩阵作乘积 得到结果为300X1 ,即为 词嵌入结果 在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
五 学习词嵌入
one-hot 矩阵 X E词嵌入矩阵= e 词嵌入矩阵 然后e 根据如果有6个单词 即为 6X300=1800维度的 向量 然后进入一个 MLP +softmax 可以得到下一个单词为啥 反过来也可以通过该过程计算 词嵌如矩阵的E 在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值