自然语言处理
zhong_ddbb
这个作者很懒,什么都没留下…
展开
-
Bert模型的基本原理与Fine-tuning
本文主要讲解Bert模型的基本原理与Fine-tuning。基本原理BERT是一种 预训练语言模型 ,即首先使用大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成具体NLP任务(分类、序列标注、句间关系判断和机器阅读理解等)。BERT的全称是Bidirectional Encoder Representation from Transformers,即:基于transformer的双向Encoder,所以在学习BERT之前先对Sel原创 2020-10-25 18:27:30 · 5985 阅读 · 0 评论 -
深入理解 Bert核心:Self-Attention与transformer
文章目录Attention机制基本思想Attention机制的权值transformer中的self-Attentionself-Attention多头机制self-Attention位置信息的表达Transformer本文主要讲解Bert模型的核心:transformer。transformer利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。通过先讲解Attention机制,再讲解Transformer模型,理原创 2020-07-24 16:42:03 · 2682 阅读 · 0 评论 -
基于Negative Sampling的word2vec模型
文章目录负采样算法CBOW模型Skip-gram模型在讲基于Negative Sampling的word2vec模型前,我们先看看Hierarchical Softmax的的缺点。的确,使用霍夫曼树来代替传统的神经网络,可以提高模型训练的效率。但是如果我们的训练样本里的中心词w是一个很生僻的词,那么就得在霍夫曼树中辛苦的向下走很久了。能不能不用搞这么复杂的一颗霍夫曼树,将模型变的更加简单呢?Negative Sampling就是这么一种求解word2vec模型的方法,它摒弃了霍夫曼树,采用了Negati原创 2020-06-02 20:50:24 · 328 阅读 · 0 评论 -
基于Hierarchical softmax的word2vec模型
文章目录CBOW模型基本结构梯度计算Skip-gram模型基本结构梯度更新优缺点word2vec有两个重要的模型:CBOW模型和Skip-gram模型。如下图所示:这两个模型都包括输入层,投影层,输出层,如上右图CBOW模型时在已知当前词wtw_twt的上下文wt−2,wt−1,wt+1,wt+2w_{t-2},w_{t-1},w_{t+1},w_{t+2}wt−2,wt−1,wt+1,wt+2的前提下预测当前词wtw_twt。而Skip-gram模型是在已知wtw_twt的前提下,预测原创 2020-06-02 20:44:43 · 358 阅读 · 0 评论 -
word2vec详解
预备知识以下为word2vec的基础知识,如已经了解可跳过。1、逻辑斯蒂回归2、语言模型3、Huffman编码词向量理解词向量其实就是将自然语言数学化。One-hot representionOne-hot represention 就是用一个很长的向量来表示一个词。向量的长度是词典D\mathcal DD的大小N,向量的分量只有一个是1,其他均为0。1的位置对应该词在词典中的索引。如下图所示:这存在两个不足之处:(1)当NNN很大时,就会造成维度灾难。(2)忽略了词与词之间的相似原创 2020-06-02 20:35:13 · 735 阅读 · 0 评论 -
语言模型基础
文章目录基本知识统计语言模型n-gram语言模型n-gram语言模型中的平滑技术n-gram 语言模型小结神经网络语言模型(NNLM)NNLM基本原理NNLM总结语言模型评价指标—困惑度语言模型(language model, LM)在自然语言处理中占有重要的地位,尤其在基于统计模型的语音识别、机器翻译、汉语自动分词和句法分析等相关研究中得到了广泛应用。本文介绍两种语言模型n-gram 语言模型和神经网络语言模型。**将 n-gram 语言模型看作是基于词与词共现频次的统计,而神经网络语言模型则是给每个词原创 2020-05-31 15:34:35 · 575 阅读 · 0 评论 -
LSTM原理详解
文章目录LSTM引例LSTM原理遗忘门输入门输出门LSTM总结GRU回顾RNN详解中,RNN的缺陷是无法做到长期依赖。为此我们引入LSTM(Long Short Term Memory networks(以下简称LSTM)),是一种特殊的RNN,主要是为了解决长期依赖问题。同时,介绍一种LSTM的变体GRU,简化了LSTM,提高运算速度。LSTM引例先来看这样一个例子:我们希望RNN可以学习到喝咖啡和打王者荣耀之间的依赖关系,早上喝了咖啡,下午才有精力打王者荣耀,但是二者在时间上并不接近。如何把这原创 2020-05-30 15:21:29 · 2309 阅读 · 0 评论 -
RNN详解
文章目录回顾FNNRNN基本模型基本结构通过时间反向传播几种特殊RNN基于上下文的RNN双向RNN基于编码—解码的序列到序列架构RNN应用回顾FNN先来回顾一下前馈神经网络(FNN),网络结构如下图所示:对于每个神经元进行如下运算:先进行加权求和z=b+∑i=1Nwixiz = b+ \sum_{i=1}^N w_i x_i z=b+i=1∑Nwixi在进行非线性变换:g(x)=σ(x)=11+e−xaout=g(z)=σ(∑i=1Nwixi+b)g(x)= \sigma(x)原创 2020-05-30 08:48:42 · 1199 阅读 · 0 评论 -
潜在狄利克雷分配(LDA)基础
文章目录狄利克雷分布LDA模型基本想法模型定义LDA 与 PLSA 异同潜在狄利克雷分配(latnet Dirichlet allocation, LDA)模型是文本集合的生成概率模型。假设每个文本由话题的一个多项分布表示,每个话题由单词的一个多项分布表示,特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。狄利克雷分布1、多项分布假设重复进行nnn次独立随机试验,每次试验可能出现的结果有kkk种,第iii种结果出现的概率为pip_ipi,第iii种结果出现的原创 2020-05-25 20:42:46 · 930 阅读 · 0 评论 -
概率潜在语义分析( PLSA)详解
文章目录生成模型共现模型模型性质模型参数与LSA关系PLSA实现算法概率潜在语义分析(probabilistic latent semantic analysis, PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督方法。模型最大的特点是用隐变量表示话题,整个模型表示文本生成话题,话题生成单词,从而得到单词—文本共现数据的过程。 假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。潜在语义分析基于非概率模型,概率潜在语义分析基于概率模型。生成模型假设有M个单词集合W={w1,w2.原创 2020-05-24 16:43:15 · 2123 阅读 · 0 评论 -
潜在语义分析(LSA)详解
文章目录单词向量空间话题向量空间算法实现矩阵奇异值(SVD)分解算法非负矩阵(NMF)分解算法基本思想损失函数(1)平方损失(2)散度损失函数算法(1)平方损失函数更新法则(2)散度损失函数的更新法则算法实现潜在语义分析(latent semantic analysis, LSA)是一种无监督方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。潜在语义分析是非概率的话题分析方法,将文本集合表示为单词-文本矩阵,对该矩阵进行进行奇异值分解,从而得到话题向量空间和文本在话原创 2020-05-24 10:21:55 · 4438 阅读 · 0 评论