NLP 相关笔记

最新推荐文章于 2024-08-22 08:02:02 发布

一只dumpling

最新推荐文章于 2024-08-22 08:02:02 发布

阅读量120

点赞数

分类专栏： nlp学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiangyutianxia/article/details/107772550

版权

nlp学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

吴恩达课程中部分NLP 相关笔记

skip-gram

监督学习，把上下文context映射到target上。
缺点：慢
在这里插入图片描述
softmax:

负采样

选context(上下文)和正确的后续单词，组成第一行，target=1
选context和随机词(错误的下文)，组成剩下的错误例子，target设置为0
context+word作为输入x，target作为y，等待预测
除了正确的样本，错误的样本有k个，数据集小，5<k<20，数据集越大，k选的越小，对更大的数据集，2<k<5。

训练
输入onehot向量得到这个词(context)的embedding
逻辑回归分类，每次迭代，只训练其中的k+1个（节省了计算量）二分类器

*注：用‘启发式’的方法选错误样本中的词 (出现频率的¾次幂)

GloVe 全局向量

Xij等价于Xtc，i与j在不同上下文中同时出现的次数。
当Xij==0时，f(Xij)=0，式子默认为等于零，无需计算logXij。

在这里插入图片描述

消除偏差(偏见)

找出需要消除的维度，eg:性别
对于该维度上不应该出现不同的词，将该维度的值中和，消除偏差（投影到这个维度的中间轴上）
对于对于本维度应有偏差的项，eg:boy,gril，将其规范到只有本维度有所不同（移动，使两者到中间轴的距离相等）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。