简单聊聊 —— NLP

MACKEI

已于 2023-09-27 15:06:48 修改

阅读量195

点赞数

文章标签： python nlp

于 2022-04-19 16:41:38 首次发布

本文链接：https://blog.csdn.net/weixin_64304788/article/details/124277481

版权

Seq2seq：本质是就是输入N得到输出M的RNN结构就是一个encode+decode组成的最终输出一个隐含变量C使用这个隐含变量c作用在解码器进行解码的每一步上, 以保证输入信息被有效利用.
NLP任务要求编码器可以抽取上下文的特征，而上下文分为方向和距离。RNN只能对句子进行单向的编码、CNN只能对短句进行编码可以并行计算、transformer可以同时编码双向的语义也可以抽取长距离特征也可以并行计算
TextCNN：是14年提出来用来做文本分类的卷积神经网络
BERT和AIBERT的区别：因式分解、去除了NSP（下一句预测）采用了SOP（句子顺序预测）
AlBERT v2.0版本成为第一个不使用dropout操作的著名预训练模型
Word2vec: 将词汇表示成向量的无监督训练方法, 该过程将构建神经网络模型, 将网络参数作为词汇的向量表示, 它包含CBOW和skipgram两种训练模式
Word2vec的优点：（网络结构）
1·由于 Word2vec 会考虑上下文，跟之前的 Embedding 方法相比，效果要更好（但不如 18 年之后的方法）
2·比之前的 Embedding方法维度更少，所以速度更快
3·通用性很强，可以用在各种 NLP 任务中
Word2vec的缺点：
1. 由于词和向量是一对一的关系，所以多义词的问题无法解决。
2. Word2vec 是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化
“KL散度又称KL距离,相对熵。当P(x)和Q(x)的相似度越高,KL散度越小。” KL散度是两个概率分布P和Q差别的非对称性的度量
FastText词向量与word2vec对比：FastText= word2vec中 cbow + h-softmax的灵活使用。Word2vec的目的是得到词向量，该词向量最终是在输入层得到，输出层对应的 h-softmax 也会生成一系列的向量，但最终都被抛弃，不会使用。fasttext则充分利用了h-softmax的分类功能，遍历分类树的所有叶节点，找到概率最大的label（一个或者N个）。
梯度消失或爆炸：sigmoid的导数值域是固定的,一旦公式中的w也小于1, 那么通过这样的公式连乘后, 最终的梯度就会变得非常非常小, 这种现象称作梯度消失. 反之, 如果我们人为的增大w的值, 使其大于1, 那么连乘够就可能造成梯度过大, 称作梯度爆炸
ROUGE评估方法：是一种基于召回率指标的评价算法. 主要统计n-gram上的召回率, 比较人工摘要和模型摘要分别计算n-gram的结果.
neg_log_likelihood负对数似然函数图形是 -log（y）
BERT：

BERT的网络架构是基于Transformer编码器。BERT使用双向的Transformer，在所有层中同时学习上下文语境特征信息。 BERT模型的输入表示能够在一个token序列中明确地表示单个文本句子或一对文本句子。因为需要同时考虑词的上文和下文，为了实现这一目的，模型采用了一种方法：随机屏蔽（masking）部分输入token，训练模型去正确预测那些被屏蔽的token。具体来说，模型会随机选择语料中15%的单词，然后其中的80%会用[Mask]掩码代替原始单词，其中的10%会被随机换为另一个单词，剩下10%保持原单词不变，然后训练模型能够正确预测被选中的单词

对于特定下游任务的模型，将BERT与一个额外的输出层结合而形成，按BERT模型要求的格式输入训练数据，端到端地微调所有参数

Bert模型利用自监督的学习方法在大规模无标注语料上的进行预训练，使用Transformer Encoder结构，通过Attention机制将任意位置的两个单词的距离转换成向量表示，能解决长期依赖的问题，同时获取文本中丰富的语义信息
LSTM、RNN、GRU的区别：RNN跟GRU相比GRU可以缓解梯度爆炸和梯度消失

RNN：循环神经网络，以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般是以序列形式进行输出，内部结构有N对N、N对1、1对N、N对M，循环机制使模型隐层输出上一时间步产生的结果, 能够作为下一个时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响，无法处理并行的处理序列

LSTM：是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。传统的循环神经网络RNN可以通过记忆体实现短期记忆进行连续数据的预测，但是当连续数据的序列变长时，会使展开时间步过长，在反向传播更新参数时，梯度要按照时间步连续相乘，很容易导致梯度消失，所以LSTM就出现了。
LSTM有三门一状态遗忘门、输入门、输出门、细胞状态

GRU：输入输出结构与普通的RNN是一样的，它的提出是为了解决LSTM计算过于复杂的问题。有更新门和重置门

GRU输入输出的结构与普通的RNN相似，其中的内部思想与LSTM相似。与LSTM相比，GRU内部少了一个”门控“，参数比LSTM少，但是却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本，因而很多时候我们也就会选择更加“实用”的GRU啦。

RNN跟GRU相比GRU可以缓解梯度爆炸和梯度消失

Transformer的输入层文本嵌入层和位置编码器。编码器部分是多头注意力机制、前馈全连接层、规范化层。解码器三个子层连接结构的一个多头注意力机制和规范化层加一个残差连接、一个多头注意力机制层和规范化层加一个残差连接、一个前馈全连接层和规范化层加一个残差连接
BERT模型中的特殊标记。它们的含义如下：

[PAD]：用 [PAD]进行填充以使所有序列长度相同。可以通过将其添加到较短的序列末尾来实现对齐。
[CLS]：在输入序列的开头添加 [CLS] 标记，以表示该序列的分类结果。
[SEP]：用于分隔两个句子，例如在文本分类问题中，将两个句子拼接成一个输入序列时，可以使用 [SEP] 来分隔这两个句子。
[UNK]：此标记用于表示未知或词汇外的单词。当一个模型遇到一个它以前没有见过/无法识别的词时，它会用这个标记替换它。
标注软件 doccano

MACKEI

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
简单聊聊 —— NLP

Seq2seq：本质是就是输入N得到输出M的RNN结构就是一个encode+decode组成的最终输出一个隐含变量C使用这个隐含变量c作用在解码器进行解码的每一步上, 以保证输入信息被有效利用. NLP任务要求编码器可以抽取上下文的特征，而上下文分为方向和距离。RNN只能对句子进行单向的编码、CNN只能对短句进行编码可以并行计算、transformer可以同时编码双向的语义也可以抽取长距离特征也可以并行计算 RNN：循环神经网络，以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般是
复制链接

扫一扫