zyk9916-CSDN博客

原创 Matching the Blanks: Distributional Similarity for Relation Learning 论文阅读笔记

一、核心思想基于Harris等人的分布式假说，作者认为，如果两个关系表示包含相同的实体对，那么两个关系表示应该是相似的。运用大量的无监督数据，在BERT的预训练过程中（Masked LM任务）额外添加MTB（Matching The Blanks）任务，在预训练阶段提升了关系抽取的性能。二、问题描述本文定义一个关系表述（relation statement）为 r =（x，s1，s2）。其中 x = [x0…xn]，为一个句子中的token序列。x0为[CLS]，xn为[SEP]，分别表示开始标志和

2021-08-21 20:48:52 515

原创 Enriching Pre-trained Language Model with Entity Information for Relation Classification 论文阅读笔记

Enriching Pre-trained Language Model with Entity Information for Relation Classification 论文阅读笔记（R-BERT关系抽取）一、核心思想：关系分类不仅依赖于整个句子的信息，还依赖于具体目标实体的信息。二、方法：1.在实体1左右两侧添加$标记，在实体2左右两侧添加#标记。在句子开头添加[CLS]标记。2.将句子输入到BERT模块中，得到一系列隐状态H（设维度为d）。设Hi到Hj是实体1的隐状态，Hk到Hm是

2021-08-19 10:52:51 220

原创 os.path.exists()方法

os.path.exists(path)方法：用于判断路径path是否存在，若存在返回True，不存在返回False。path如果写成绝对路径的形式，则直接判断绝对路径path是否存在；path如果写成相对路径的形式，则从当前目录为起点，检查相对路径path是否存在。...

2021-07-23 11:20:13 3993

原创 Attention is all you need（Transformer）论文阅读笔记

一、背景seq2seq模型（2014年）：https://blog.csdn.net/zyk9916/article/details/118002934Attention模型（2015年）：https://blog.csdn.net/zyk9916/article/details/118498156对于序列建模和转换问题，大量的研究都围绕以RNN为基础的encoder-decoder架构展开。但是，RNN是一种时序模型，存在固有的顺序性。无论是在encoder还是decoder中，都需要获得上一个时

2021-07-08 17:28:51 265

原创 Neural Machine Translation by Jointly Learning to Align and Translate（注意力模型）论文阅读笔记

一、背景seq2seq模型：https://blog.csdn.net/zyk9916/article/details/118002934在seq2seq模型中，encoder将整个源句子编码成一个固定长度的向量（即取encoder中的最后一个隐状态），然后送到decoder中解码。这种方法对使得长句子难以处理。作者认为，将句子编码成定长的向量是提升模型性能的瓶颈，因此提出了注意力模型来改善这个限制。作者提出的模型不将整个输入句子编码为一个固定长度的向量。相反，它将输入语句编码为一个向量序列，并在d

2021-07-05 21:11:28 111

原创 Sequence to Sequence Learning with Neural Networks（2014，seq2seq必读经典）论文阅读笔记

一、IntroductionDNN只能应用于输入和目标可以用固定维数的向量进行合理编码的问题。这是一个很大的限制，因为许多重要的问题最好用长度未知的序列来表达。作者提出了一种端到端的序列学习方法，它对序列结构做了最小的假设：使用一个多层LSTM将输入序列映射到一个固定维数的向量，然后另一个LSTM将该向量解码为目标序列。作者提出的方法取得了很好的效果，并且发现颠倒所有源句子(而不是目标句子)中单词的顺序显著提高了LSTM的表现，因为这样做在源句子和目标句子之间引入了许多短期依赖性，这使得优化问题更容

2021-06-18 10:54:11 170

原创 Att-BiLSTM关系分类（2015）论文阅读笔记

Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification（Att-BiLSTM关系分类，2015）论文阅读笔记一、背景SVM（2010）CNN（2014）RNN（Zhang and Wang，2015）–长程依赖问题SDP-LSTM（2015）–比较复杂BLSTM（Zhang，2015）–使用了很多复杂特征本文的贡献：提出了基于注意力机制的BiLSTM网络用于关系分类，它

2021-06-16 16:55:07 1536

原创 DepLCNN（2015）关系分类论文阅读笔记

Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling（DepLCNN，2015）论文阅读笔记一、主要贡献1.使用CNN从subject和object之间的最短依存路径学习关系表示。2.引入了一个负采样（Negative Sampling）策略，即在一个关系中恰当地分配subject和object，以解决关系分类问题的方向性。（以往的研究没有充分考虑subject和

2021-06-15 22:26:30 348 2

原创 A Dependency-Based Neural Network for Relation Classification（DepNN，2015）论文阅读笔记

一、背景SVM（2010）MV-RNN（2012）CNN（2014）FCM（2014）DT-RNN（2014）DT-RNN使用RNN建模依赖树后，通过线性组合的方式将节点的词嵌入与其子节点的词嵌入结合起来。而本文则是利用子树结合词嵌入，再使用CNN捕捉特征，F1值大幅提高。以往的关系分类研究已经验证了使用依赖最短路径或子树进行关系分类的有效性。二者具有不同的功能。本文提出了一种新的结构：Augmented Dependency Path（ADP，增强依赖路径），将两个实体间的最短依赖路径和与最

2021-06-10 17:38:27 264

原创 SDP-LSTM关系分类（2015）论文阅读笔记

一、背景SVMRNNMV-RNNFCMCNNCR-CNN本文基于以下三点原因，提出了SDP-LSTM（基于最短依存路径的LSTM）模型用于关系分类：①最短依存路径包含大量信息：最短依存路径中的单词集中包含了大部分信息，噪声很少，而其他单词信息较少，且可能带来大量噪声。②方向很重要：由于在依存树中，两个词的方向不同，会导致其依赖关系不同，且关系类型也具有方向性，所以，将SDP划分为两个子路径，每个子路径为从一个实体到共同的祖先节点。将提取的特征沿两个子路径连接起来进行最终的分类。③外部

2021-05-31 20:46:04 659

原创学习笔记总结

矩阵的范数详解：https://blog.csdn.net/qq_27261889/article/details/87902480

2021-05-31 10:26:50 127

原创 CR-CNN（2015）论文阅读笔记

论文：Classifying Relations by Ranking with Convolutional Neural Networks（CR-CNN，2015）阅读笔记一、背景MV-RNN（2012）CNN（2014）FCM（2014）二、模型1.Word Embeddings（一般方法）rw = Wwrdvwvw是one-hot向量，Word Embeddings维度为dw。2.Word Position Embeddings（一般方法）Word Position Embeddi

2021-05-27 10:39:13 771

原创 pytorch中的softmax回归和CrossEntropy损失函数

使用softmax求损失的过程中，需要经历以下几步：1.应用softmax函数； 2.取对数； 3.计算损失其中第1、2步可以使用torch.nn.LogSoftmax()完成，第3步可以使用torch.nn.NLLLoss完成也可以使用torch.nn.CrossEntropyLoss一次性完成3步操作，构成一个完整的softmax分类器。（使用最多！！！）CLASS torch.nn.CrossEntropyLoss(weight=None, size_average=None, i

2021-05-25 17:34:23 1482

原创 Bidirectional Long Short-Term Memory Networks for Relation Classification（PACLIC 2015）论文阅读笔记

一、背景SVM（2010），MV-RNN（2012），CNN（2014），FCM（2014），CR-CNN（2015），DepNN（2015）。理论上，RNN可以任意长度的序列进行建模。但由于梯度消失/梯度爆炸问题。实际上无法实现。LSTM引入门控机制，改进了RNN，从而获得了对长序列建模的能力。本文提出了双向长短时记忆网络(BLSTM)来对包含所有单词完整、顺序信息的句子进行建模。同时，还使用从词汇资源(如WordNet)或NLP系统(如依赖解析器和命名实体识别器(NER)中获取的特征。在SemEv

2021-05-22 16:14:26 850

原创 Relation Extraction: Perspective from Convolutional Neural Networks（2015）论文阅读笔记

一、背景：相较于关系分类(Relation Classification，RC），关系抽取（Relation Extraction，RE）任务往往伴随着一个极不平衡的数据集，其中非关系的实例数远远超过其它实例数，这使得RE任务比RC任务更具挑战性，但也更加实用。CNN已经在关系分类任务中取得了很大成果。但是目前为止，还没有工作将CNN运用到RE任务中去，本文是填补这一空白的第一次尝试，为今后在这一领域的研究提供了baseline。二、模型：1.Word Representation首先，由于CN

2021-05-21 11:41:45 600

原创 NLP中的卷积操作详解（torch.nn.Conv1d)

NLP领域中，由于自然文本是一维的，通常使用一维卷积即可达到要求。在实际应用中，经embedding层处理后的数据格式一般为(batch_size, word_embeddings_dim, max_length)，共三个维度。CLASStorch.nn.Conv1d(in_channels,out_channels,kernel_size,stride=1,padding=0,dilation=1,groups=1,bias=True,padding_mode='zeros')...

2021-05-20 20:18:34 1963

原创 Relation Classification via Recurrent Neural Network论文阅读笔记

背景：从Zeng等提出CNN深度学习模型解决关系分类问题开始（Relation Classification via Convolutional Deep Neural Network），陆续提出了很多模型，如MW-CNN（2015），CR-CNN（2015），DepLCNN（2015）等。虽然也有一些基于其他架构的模型，如MV-RNN（2012，它是一个递归网络，并不是时序模型），FCM（2014)，SDP-LSTM(2015），总体来说，CNN模型占据主导地位。本文的主要贡献：1.提出了基于R

2021-05-14 10:22:26 553

zyk9916的博客