![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
pyxiea
双鸭山大学研究生,对深度学习、自然语言处理、推荐系统感兴趣
展开
-
Transformers源码阅读——BertModel
BertModel类的结构图如下:原创 2020-04-08 22:45:12 · 1880 阅读 · 4 评论 -
Seq2Seq中的Exposure Bias现象的原因以及解决办法
学习资料:[1] 李宏毅视频 59:36 开始[2] Seq2Seq中Exposure Bias现象的浅析与对策[3] Bridging the Gap between Training and Inferencefor Neural Machine Translation(2019ACL)Seq2Seq模型会遇到常说的Exposure Bias现象。原因:在训练阶段和预测阶段会遇到m...原创 2020-03-12 21:00:17 · 1399 阅读 · 0 评论 -
Bi-LSTM+CRF理解
学习资料:[1] 基于BiLSTM-CRF模型的序列标注(Tensorflow)[2] 最通俗易懂的BiLSTM-CRF模型中的CRF层介绍[3] CRF Layer on the Top of BiLSTM - 5 \quad 资料[2]的原系列文章的一篇训练阶段资料 [1] 对BiLSTM的那部分解释比较清楚,但是讲到CRF层出错了。就像资料 [2,3] 所说,我们需要计算的是的真...原创 2020-03-12 17:28:43 · 3667 阅读 · 0 评论 -
hierarchical softmax对生僻词很不友好?扯淡!
[1] https://code.google.com/archive/p/word2vec/[2] Word2Vec原始论文[3] Why is hierarchical softmax better for infrequent words, while negative sampling is better for frequent words?[4] NLP中的Embedding方...原创 2020-03-12 11:21:31 · 508 阅读 · 0 评论 -
算法面经汇总(2)
文章目录深度学习NLP海量数据其他深度学习⭐️ 画出RNN的结构图NLP模型公式笔记⭐️ 反向传播的原理BP算法推导——以矩阵形式⭐️ 梯度下降陷入局部最优有什么解决办法[1] 你的模型真的陷入局部最优点了吗[2] 梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛?[3] 深度学习里,如何判断模型陷入局部最优?在高维问题中,梯度下降通常是收敛到鞍点或大块的平坦区域,...原创 2020-10-22 18:07:04 · 1089 阅读 · 0 评论 -
HMM与CRF笔记
本文为HMM与CRF学习笔记,方便日后可回顾完此文即可在面试中回答诸如“简单介绍下CRF”,“HMM是如何训练的”等问题.隐马尔可夫模型-HMM模型定义HMM的图结构如下:Y={y1,y2,...,yT}Y=\{y_1,y_2,...,y_T\}Y={y1,y2,...,yT}是长度为TTT的状态序列,X={x1,x2,...,xT}X=\{x_1,x_2,...,x_T\}X={...原创 2020-03-08 12:12:11 · 1224 阅读 · 1 评论 -
NLP中的Embedding方法总结
词向量One-Hot Encoding学习资料https://flashgene.com/archives/66661.html要点例如词汇表大小∣V∣=N|V|=N∣V∣=N,则用一个NNN维的one-hot向量来表示一个词,每个词的one-hot中111的位置就对应了该词在词汇表的索引。缺点语义鸿沟:其无法通过词向量来衡量相关词之间的距离关系,即这样的表征方法无法反映词之间...原创 2019-10-01 22:34:17 · 13204 阅读 · 3 评论