![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP基础知识
文章平均质量分 68
介绍NLP相关概念和基础模型等
pppppppppppx
这个作者很懒,什么都没留下…
展开
-
Batch Normalization & Layer Normalization
避免因为输入输出数据数量级差别大而造成网络预测误差过大。,即均值为0,标准差为1,这里的关键在于复合标准正态分布。,BN针对每个位置进行缩放就不符合NLP的规律了。,移动的小数位数取决于属性值绝对值的最大值。,有些数值很大,有些很小,将原始值进行映射。,将数据值映射到 [0,1] 之间。如果把一批文本组成一个batch,把每层神经网络任意神经元。,每一层的参数更新都会。,能大大加快训练速度。每个句子内所有位置的词。尽可能让原始数据变为。结构,在训练过程中,,而且梯度变大意味着。所有句子同一位置的词。原创 2023-05-06 11:36:47 · 83 阅读 · 0 评论 -
Bert详解记录
花了两天多学习了 Bert 的原理细节。学习完 Transformer 后趁热打铁的投入到 Bert 的学习,然而并没有像预想的那般通顺。因为 BERT 并不是想象中 Encoders 的简单堆叠,BERT 中出现了许多值得学习的新概念。首先,BERT 继承了许多前辈的优秀理念,如 ELMo 的双向编码,CBOW 的 ”完形填空“,GPT 的 Trm 抽取等。我想比较重要的应该有:采用 Trm 的 Encoders 做特征抽取;双向 Attention 编码综合上下文;原创 2023-05-05 10:43:18 · 284 阅读 · 0 评论 -
常见词向量获取方式总结记录(面试)
但是 Word2Vec 目标不一样,它单纯就是要 Word Embedding 的,这是主产品,所以它完全可以随性地这么去训练网络。,每一维存储着词库对应序号的词语出现在当前词语周围的次数,所有这些词向量组成的矩阵就是。,NNLM 的主要任务是要学习一个解决语言模型任务的网络结构,语言模型就是要。基于统计的获取词向量的方法,基本思想是:用。缺点显而易见,一是 onehot 编码向量。,相比于Transformer,LSTM。3.2 N-Gram(统计语言模型),二是 onehot 编码并。原创 2023-05-04 16:36:15 · 88 阅读 · 0 评论