自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Task5

BERT BERT模型进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。 真正的双向encoding: Masked LM,类似完形填空,尽管仍旧看到所有位置信息,但需要预测的词已被特殊符号代替,可以放心双向encoding。 Transformer做encoder实现上下文相关(context): 使用transformer而不是bi-LSTM做encoder,可以有更深的层数、具有更好并行性。并且线性的Transformer比lstm更易免受mask标记影响,只需要通过self

2020-07-06 22:26:46 125

原创 Contextual Word Embeddings

EMLo 在EMLo中,他们使用的是一个双向的LSTM语言模型,由一个前向和一个后向语言模型构成,目标函数就是取这两个方向语言模型的最大似然。ELMo的整体图如下图,它使用了多层LSTM,且增加了后向语言模型(backward LM)。 对于多层lstm,每层的输出都是隐向量htht,在ELMo里,为了区分,前向lstm语言模型的第j层第k时刻的输出向量命名为hLMk,j−→−hk,jLM→。 对于后向语言模型,跟前向语言模型类似,除了它是给定后文来预测前文。我们设定后向lstm的第j层的第k时刻的输出向量

2020-07-03 23:46:48 397

原创 自然语言处理( NLP )Subword Models

word2vec 一个人读书时,如果遇到了生僻的词,一般能根据上下文大概猜出生僻词的意思,而 Word2Vec 正是很好的捕捉了这种人类的行为。它的缺点是hicontext 很小,没有使用全局的cooccur,所以实际上对cooccur的利用很少 GloVe 词义相近的词对贡献次数多,词义差得比较远的词对共现次数比较少,但其实他们的区分度并不明显。相比于word2vec,因为golve更容易并行化,所以速度更快,达到67.1%的准确率,只需要花4h12m。 由于GloVe算法本身使用了全局信息,自然内存费的

2020-06-30 23:03:40 251

原创 基于统计的词向量

GloVe 的训练过程 实质上还是监督学习:虽然 GloVe 不需要人工标注为无监督学习,但实质还是有 label 就是 log(xij) 。 向量 ω 和 ω~ 为学习参数,本质上与监督学习的训练方法一样,采用了 AdaGrad 的梯度下降算法,对矩阵 X 中的所有非零元素进行随机采样,学习曲率(learning rate)设为 0.05,在 vector size 小于 300 的情况下迭代了 50 次,其他大小的 vectors 上迭代了 100 次,直至收敛。 最终学习得到的是两个词向量

2020-06-27 22:49:29 240

原创 Word2Vec

one-hot编码 传统nlp中,我们把单词认为是离散的符号,,可以用一系列one_hot编码的向量表示 eg: motel = [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0] 缺点: 1、每个单词的one-hot编码维度是整个词汇表的大小,维度非常巨大,编码稀疏,会使得计算代价变大。 2、one-hot编码假设单词与单词之间是独立的,无法体现单词与单词的关系远近程度, Word2Vec Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上

2020-06-24 22:48:37 158

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除