weixin_46783985-CSDN博客

原创 Task5

BERTBERT模型进一步增加词向量模型泛化能力，充分描述字符级、词级、句子级甚至句间关系特征。真正的双向encoding：Masked LM，类似完形填空，尽管仍旧看到所有位置信息，但需要预测的词已被特殊符号代替，可以放心双向encoding。Transformer做encoder实现上下文相关（context）：使用transformer而不是bi-LSTM做encoder，可以有更深的层数、具有更好并行性。并且线性的Transformer比lstm更易免受mask标记影响，只需要通过self

2020-07-06 22:26:46 126

原创 Contextual Word Embeddings

EMLo在EMLo中，他们使用的是一个双向的LSTM语言模型，由一个前向和一个后向语言模型构成，目标函数就是取这两个方向语言模型的最大似然。ELMo的整体图如下图，它使用了多层LSTM，且增加了后向语言模型（backward LM）。对于多层lstm，每层的输出都是隐向量htht，在ELMo里，为了区分，前向lstm语言模型的第j层第k时刻的输出向量命名为hLMk,j−→−hk,jLM→。对于后向语言模型，跟前向语言模型类似，除了它是给定后文来预测前文。我们设定后向lstm的第j层的第k时刻的输出向量

2020-07-03 23:46:48 401

原创自然语言处理( NLP )Subword Models

word2vec一个人读书时，如果遇到了生僻的词，一般能根据上下文大概猜出生僻词的意思，而 Word2Vec 正是很好的捕捉了这种人类的行为。它的缺点是hicontext 很小，没有使用全局的cooccur，所以实际上对cooccur的利用很少GloVe词义相近的词对贡献次数多，词义差得比较远的词对共现次数比较少，但其实他们的区分度并不明显。相比于word2vec,因为golve更容易并行化，所以速度更快，达到67.1%的准确率，只需要花4h12m。由于GloVe算法本身使用了全局信息，自然内存费的

2020-06-30 23:03:40 260

原创基于统计的词向量

GloVe 的训练过程实质上还是监督学习：虽然 GloVe 不需要人工标注为无监督学习，但实质还是有 label 就是 log(xij) 。向量 ω 和 ω~ 为学习参数，本质上与监督学习的训练方法一样，采用了 AdaGrad 的梯度下降算法，对矩阵 X 中的所有非零元素进行随机采样，学习曲率（learning rate）设为 0.05，在 vector size 小于 300 的情况下迭代了 50 次，其他大小的 vectors 上迭代了 100 次，直至收敛。最终学习得到的是两个词向量

2020-06-27 22:49:29 245

原创 Word2Vec

one-hot编码传统nlp中，我们把单词认为是离散的符号，，可以用一系列one_hot编码的向量表示eg: motel = [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]缺点： 1、每个单词的one-hot编码维度是整个词汇表的大小，维度非常巨大，编码稀疏，会使得计算代价变大。2、one-hot编码假设单词与单词之间是独立的，无法体现单词与单词的关系远近程度，Word2VecWord2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上

2020-06-24 22:48:37 161

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Task5

原创 Contextual Word Embeddings

原创 自然语言处理( NLP )Subword Models

原创 基于统计的词向量

原创 Word2Vec

空空如也

空空如也

原创自然语言处理( NLP )Subword Models

原创基于统计的词向量