2022.12.4 第11次周报

最新推荐文章于 2024-09-07 21:01:55 发布

轻描淡写ζ

最新推荐文章于 2024-09-07 21:01:55 发布

阅读量306

点赞数

文章标签：自然语言处理深度学习神经网络

本文链接：https://blog.csdn.net/wkh1314/article/details/128164165

版权

摘要

This week, I learnt about LSTM, understanding its basic concepts, structure and the process of forward and backward propagation mathematical derivation, and I made a brief comparison between LSTM and RNN. In addition, I studied an article on natural language processing, which introduced the Knowledge Graph Augmented Word Representation for Named Entity Recognition, encode the prior knowledge of entities from an external knowledge base into the representation, and introduce a Knowledge-Graph Augmented Word Representation or KAWR for named entity recognition with good results.
本周，我学习了LSTM，了解了其基本概念、结构以及前向传播、反向传播数学推导过程，并且我将LSTM与RNN做了一个简单的对比。另外，我学习了一篇关于自然语言处理的文章，该文章介绍了用于命名实体识别的知识图谱增强型词汇表示法，将外部知识库中的实体的先验知识编码到表示中，并引入知识图谱增强的词表示或KAWR，用于命名实体识别得到了不错的效果。

深度学习

1、简单理解LSTM

LSTM，全称 Long Short Term Memory (长短期记忆) 是一种特殊的递归神经网络。这种网络与一般的前馈神经网络不同，LSTM可以利用时间序列对输入进行分析；简而言之，当使用前馈神经网络时，神经网络会认为我们 t 时刻输入的内容与 t+1 时刻输入的内容完全无关，对于许多情况，例如图片分类识别，这是毫无问题的，可是对于一些情景，例如自然语言处理 (NLP, Natural Language Processing) 或者我们需要分析类似于连拍照片这样的数据时，合理运用 t 或之前的输入来处理 t+n 时刻显然可以更加合理的运用输入的信息。

LSTM结构：

RNN结构：

理解LSTMs的关键就是下面的矩形方框，被称为memory block（记忆块），主要包含了三个门（forget gate、input gate、output gate）与一个记忆单元（cell）。方框内上方的那条水平线，被称为cell state（单元状态），它就像一个传送带，可以控制信息传递给下一时刻。

输入门是用来控制输入i’(t)进出多少或者是否允许进出的门控设备。

输出门是用来控制t时刻状态值m(t)对外多少是可见的门控设备。

遗忘门是控制RNN中历史状态m(t-1)流动到t时刻后允许多少进入t时刻的门控设备。

2、为什么需要LSTM？

RNN是把所有信息都记住，不管是有用的信息还是没用的信息。LSTM则被设计为一个记忆细胞，具备选择性记忆的功能，可以选择记忆重要信息，过滤掉噪声信息，减轻记忆负担，其从被设计之初就被用于解决一般递归神经网络中普遍存在的长期依赖问题，使用LSTM可以有效的传递和表达长时间序列中的信息并且不会导致长时间前的有用信息被忽略（遗忘）。与此同时，LSTM还可以解决RNN中的梯度消失/爆炸问题。

记忆细胞： 在LSTM的每个时间步里面，都有一个记忆cell，这个东西给了LSMT选择记忆功能，使得LSTM有能力自由选择每个时间步里面记忆的内容。

3、LSTM前向传播

请添加图片描述

4、LSTM反向传播

在这里插入图片描述

请添加图片描述

如何缓解梯度消失问题： 请添加图片描述
学习视频：https://www.bilibili.com/video/BV1qM4y1M7Nv/?

文献阅读

Knowledge-Graph Augmented Word Representations for Named Entity Recognition

1、摘要

通过对上下文信息的建模，ELMo和BERT成功地改进了最先进的单词表示法，并在命名实体识别任务中显示了它们的有效性。在本文中，除了这种上下文建模外，我们建议将外部知识库中的实体的先验知识编码到表示中，并引入知识图谱增强的词表示或KAWR，用于命名实体识别。基本上，KAWR为单词提供了一种知识感知的表示方法：1）用一个新的循环单元（GERU）对来自预训练的KG嵌入模型的实体信息进行编码；2）通过提供一个基于KG中定义的实体关系的关系关注方案，从知识的角度加强上下文建模。我们证明，KAWR作为现有语言学词汇表征的增强版，在不同领域的5个数据集上的F1得分提高了+0.46∼+2.07。在训练集中找不到的新实体上，KAWR也有更好的泛化效果。

2、目标模型

基于实体的门控循环单元（GERU）
文章设计了一个循环神经网络单元，称为基于实体的门控循环单元（GERU）。在GERU中，每个标记ti都与一个输入向量mi相关联。

公式如下：

GERU与标准的门控递归单元（GRU）循环单元（GRU）的区别在于：
1）隐藏状态݄hi是通过GRU中的qi更新的，但我们使用的是Wientity来更新 GERU 中的hi，以便加强
直接来自相关实体的信号；
2）GRU的输出通常是通过对隐藏状态hi的投射来实现的݄，但GERU（Wientity）的输出是通过对相关实体的关注，以qi作为查询矢量。

KAWR模型
KAWR可以与不同种类的语言模型一起工作。如果Wilanguage是由一个简单的与语境无关的语言模型如词向量，我们只需设置Wilanguage=xi , 其中xi是输入嵌入向量，可在大型文本语料库中进行预训练。如果Wilanguage是基于情境感知的表示，如ELMo或BERT，我们可以把关系的注意力不仅放在输入序列{xi}。而且还可以对中间层的输出序列进行关注，以便提供多个注意头，然后将其串联起来作为Wirelation。

3、模型训练

为了预先训练Wirelation中的参数，我们提出了一个多任务学习过程，其中3个标签任务（即命名实体识别、分块、POS标签）通过共享Wirelation的参数来训练。该网络结构如图所示。每个任务的分类器是一个单层全连接的网络，对类进行软性放大。各个任务的分类层彼此完全独立，没有任何联系。
训练过程遵循中提出的协议。每次，我们随机选择一个任务，然后是迷你批次的训练样本。然后我们预测任务标签，计算与真实标签相关的损失，并相应地更新模型参数。

4、实验和结果

在我们的实验中，我们基于预训练的BERT和KG嵌入模型建立了KAWR，并在涵盖不同领域的5个数据集上将KAWR与原始BERT进行了比较。
在这里插入图片描述
所有的实验都是在PowerEdge C4130上进行的，带有Tesla P40 GPU，内存为20GB。模型使用AdamWeightDecayOptimizer进行训练，它是基于随机梯度下降的，超参数列于上表。

结果分析
文章用两个不同的分类层来比较KAWR和BERT。一个是每个标记上的简单分类层（FC层），其中预测不以周围预测为条件（即没有LSTM或CRF层），另一个是Bi-LSTM-CRF网络（据报道这是标签任务中最先进的技术）。
本文报告了所有4个模型（BERT-FC、KAWR-FC、BERT-Bi-LSTM-CRF、KAWR-Bi-LSTM-CRF）在5个不同的数据集上的F1得分，这些数据集涵盖了不同的领域，如新闻网（CoNLL2003）、分子生物学（Genia）、生物医学（NCBI）、金融（SEC）和用户生成的噪音文本（WNUT16）。这些数据集的规格和结果见下表。
在这里插入图片描述

5、结论

在本文中，我们提出了一种用于命名实体识别的新的单词表示法KAWR。KAWR是现有语言表征的一个增强版本，它通过一个新的门控递归单元GERU对实体信息（来自外部知识库）进行编码，并通过一个新的注意力函数ܽ对实体间的关系背景进行建模。实验表明，KAWR在不同领域的5个不同数据集上的表现优于BERT，特别是在训练集较小的情况下。
由于KAWR所携带的知识信息由于KAWR携带的知识信息也可以促进其他NLP任务，我们认为由于KAWR所携带的知识信息也可以促进其他的NLP任务，如文本分类、机器翻译和问题回答，我们认为KAWR可以成为一个通用的词汇表示。因此，作者将探索KAWR在其他NLP任务上的潜力，任务的潜力，作为未来的工作。