NLP
weixin_46783985
这个作者很懒,什么都没留下…
展开
-
Task5
BERT BERT模型进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。 真正的双向encoding: Masked LM,类似完形填空,尽管仍旧看到所有位置信息,但需要预测的词已被特殊符号代替,可以放心双向encoding。 Transformer做encoder实现上下文相关(context): 使用transformer而不是bi-LSTM做encoder,可以有更深的层数、具有更好并行性。并且线性的Transformer比lstm更易免受mask标记影响,只需要通过self原创 2020-07-06 22:26:46 · 154 阅读 · 0 评论 -
基于统计的词向量
GloVe 的训练过程 实质上还是监督学习:虽然 GloVe 不需要人工标注为无监督学习,但实质还是有 label 就是 log(xij) 。 向量 ω 和 ω~ 为学习参数,本质上与监督学习的训练方法一样,采用了 AdaGrad 的梯度下降算法,对矩阵 X 中的所有非零元素进行随机采样,学习曲率(learning rate)设为 0.05,在 vector size 小于 300 的情况下迭代了 50 次,其他大小的 vectors 上迭代了 100 次,直至收敛。 最终学习得到的是两个词向量原创 2020-06-27 22:49:29 · 257 阅读 · 0 评论 -
Word2Vec
one-hot编码 传统nlp中,我们把单词认为是离散的符号,,可以用一系列one_hot编码的向量表示 eg: motel = [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0] 缺点: 1、每个单词的one-hot编码维度是整个词汇表的大小,维度非常巨大,编码稀疏,会使得计算代价变大。 2、one-hot编码假设单词与单词之间是独立的,无法体现单词与单词的关系远近程度, Word2Vec Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上原创 2020-06-24 22:48:37 · 184 阅读 · 0 评论