吴恩达课程中 部分NLP 相关笔记
skip-gram
监督学习,把上下文context映射到target上。
缺点:慢
softmax:
负采样
- 选context(上下文)和正确的后续单词,组成第一行,target=1
- 选context和随机词(错误的下文),组成剩下的错误例子,target设置为0
- context+word作为输入x,target作为y,等待预测
- 除了正确的样本,错误的样本有k个,数据集小,5<k<20,数据集越大,k选的越小,对更大的数据集,2<k<5。
训练 - 输入onehot向量得到这个词(context)的embedding
- 逻辑回归分类,每次迭代,只训练其中的k+1个(节省了计算量)二分类器
*注:用‘启发式’的方法选错误样本中的词 (出现频率的¾次幂)
GloVe 全局向量
Xij等价于Xtc,i与j在不同上下文中同时出现的次数。
当Xij==0时,f(Xij)=0,式子默认为等于零,无需计算logXij。
消除偏差(偏见)
- 找出需要消除的维度,eg:性别
- 对于该维度上不应该出现不同的词,将该维度的值中和,消除偏差(投影到这个维度的中间轴上)
- 对于对于本维度应有偏差的项,eg:boy,gril,将其规范到只有本维度有所不同(移动,使两者到中间轴的距离相等)