
机器学习
文章平均质量分 92
zycxnanwang
这个作者很懒,什么都没留下…
展开
-
Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN
Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN概述本文的方法是基于检索的方法。通过将问题、答案映射到同一向量空间,通过计算向量距离,衡量问题和答案的相似程度,最后选出正确答案。文中的创新点是作者提出了AR-SMCNN模型,用以融入更多的文本信息。并且论文也提出了一种启发式...原创 2019-11-15 23:08:15 · 491 阅读 · 0 评论 -
Question Answering with Subgraph Embedding
Question Answering with Subgraph Embedding总结文章提出一个将问题、候选答案映射到低维稠密向量,然后计算其关联程度评分,通过排序确定最后的答案。训练的过程是一个多任务训练过程,不仅使利用<问题、答案>对,也使用相同意思的问题对,来丰富词向量信息。候选答案的获取首先从问题中匹配出一个主题实体策略1:仅仅考虑与主题实体距离一跳以内的实体...原创 2019-11-15 21:12:30 · 425 阅读 · 0 评论 -
基于交叉注意力机制的知识图谱问答模型
An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge概述本文提出一种端到端的模型来对问题进行表示,具体的根据候选答案的不同方面,利用交叉注意力机制,对问题进行表示和计算最后问题与答案的匹配程度,同时论文通过TransE模型和交...原创 2019-11-13 22:17:43 · 5295 阅读 · 3 评论 -
融入词汇信息的基于字的命名实体识别方法
融入词汇信息的基于字的命名实体识别方法基于词的中文命名实体识别方法,前期存在不可避免的分词错误,会导致后期命名实体识别过程中实体边界识别错误,进而导致方法的性能指标下降。而基于字的命名实体识别方法,虽然不存在分词错误,但是没有考虑词的信息。经验上,相当一部分实体边界是词的边界,说明词可以提供丰富的边界信息。对于句子南京市长江大桥若无词信息,可以会提取出南京市长、江大桥这种错误信息。基于...原创 2019-11-05 16:38:46 · 1869 阅读 · 2 评论 -
CAN-NER Convolutional Attention Network for Chinese Named Entity Recognition
CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition总结作者提出了基于注意力机制的卷积神经网络架构,用于中文命名实体识别。主要的框架是CNN with the local-attention 和Bi-GRU with global self-attention总体的框架图如下:Convo...原创 2019-11-01 10:38:47 · 2539 阅读 · 3 评论 -
融入字典的医学命名实体识别模型
Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition总述作者提出了融入字典信息的深度学习模型,用于解决中文医学命名实体识别问题。融合了字典的深度模型主要的优点是,可以克服传统深度模型难以识别出现频率少,或者从未出现的实体。具体得,作者基于B...原创 2019-10-29 21:57:39 · 1717 阅读 · 2 评论 -
pytorch中Tensor各种操作
import torchpytorch中Tensor初始化#返回全零Tensora = torch.zeros(2,3); print(a)#返回shape和参数一样的全1Tensor, zeros_like类似b = torch.ones_like(a); print(b)#torch.arange(start=0, end, step=1) c = torch.arange...原创 2019-08-21 22:21:11 · 2279 阅读 · 1 评论 -
Attention-Based Bidirectional Long Short-Term Memory Networks for
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification概述作者提出了一种基于注意力机制的双向LSTM框架用于关系抽取。方法的主要创新点引入了注意力机制。神经网络框架框架非常简单,也是作者一直强调的。Embedding Layer、LSTM layer、Atten...原创 2019-08-26 12:44:51 · 643 阅读 · 0 评论 -
End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures
End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures概述本篇论文应该是最早提出基于神经网络的联合学习(实体识别、实体关系抽取两个子任务联合学习)的方法。主要的思想是序列LSTM和树型LSTM的叠加,主要的过程是,首先通过序列LSTM识别出相应的实体,然后树型LSTM根据识别出来的实体结果,进行...原创 2019-08-28 16:52:18 · 629 阅读 · 0 评论 -
Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths
Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths概述论文提出了一种SDP-LSTM模型用于实体关系分类,SDP(the shortest dependency path),在句法依存树中,两实体到公共祖先节点的最短路径。在实体关系分类中,SDP富含多种信息,可以让模...原创 2019-08-28 21:44:21 · 1418 阅读 · 2 评论 -
Distant Supervision for Relation Extraction via Piecewise
Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks总体概述文章提出了一种PCNN+多示例学习的方法用于远程监督的实体抽取。其中多示例学习的方法主要是克服远程标注中存在的错误标签问题。而PCNN(Piecewise Convolutional Neural Network...原创 2019-09-01 17:58:05 · 349 阅读 · 0 评论 -
Attention in Character-Based BiLSTM-CRF for Chinese Named Entity Recognition
Attention in Character-Based BiLSTM-CRF for Chinese Named Entity Recognition概述作者提出了一种基于字符(区别于词)的中文命名实体识别方法。提取字符级特征和字形特征,字符级特征和字形特征经过attention机制作用后得到最后的特征,特征作为框架BiLSTM-CRF的输入。经过BiLSTM-CRF的处理,完成命名实体...原创 2019-09-09 20:04:29 · 1406 阅读 · 0 评论 -
Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism
Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism概述这篇文章,主要有两个创新点,第一个创新点,命名实体识别任务既要求识别出实体的边界又要求识别出实体的类型。对于中文而言,命名实体识别任务和分词任务共享较多信息(主要是边界信息),但是分词任务也有自己任务...原创 2019-09-17 22:05:41 · 677 阅读 · 0 评论 -
Neural Chinese Named Entity Recognition via CNN-LSTM-CRF and Joint Training with Word Segmentation
Neural Chinese Named Entity Recognition via CNN-LSTM-CRF and Joint Training with Word Segmentation概述中文与英文相比,词之间没有明显的分隔符,所以很难确定实体的边界,另外中文命名实体识别任务的标注语料也很少。所以文章中作者提出了CNN-LSTM-CRF架构去获得短距离和长距离的内容依赖。同时为了提...原创 2019-09-17 23:12:30 · 1017 阅读 · 1 评论 -
EDA Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks概述文章提出了一种文本分类任务中数据增强的方法:EDA,EDA中包括四种操作,SR、RI、 RS、RD。实验显示,在五个通用的文本分类数据集上,使用EDA方法增强语料,模型都有一定性能上的提升。尤其在语料不足...原创 2019-10-06 20:12:42 · 1636 阅读 · 0 评论 -
Relation Classification via Convolutional Deep Neural Network
Relation Classification via Convolutional Deep Neural Network最近在学习关系抽取,找了一些经典的论文来看,写下一点自己的理解,方便自己以后查阅。关系抽取关系抽取规范点的定义就是,给定一个包含两个实体e1e_1e1、e2e_2e2的句子S, 识别两个实体之间的关系(关系一般预先给出)。按照机器学习的思路,关系抽取就是一个多分类...原创 2019-08-24 20:42:17 · 529 阅读 · 0 评论 -
pytorch自动求导
自动求导属性import torch#设置自动求导a = torch.rand((2,4), requires_grad=True)print (a)#查看自动求导属性print (a.requires_grad)#改变自动求导属性a.requires_grad_(False)print (a.requires_grad)tensor([[0.9605, 0.0482, ...原创 2019-08-15 10:23:56 · 338 阅读 · 0 评论 -
基于HMM和CRF的命名实体识别
基于HMM和CRF的命名实体识别前段时间,上了机器学习课程,然后老师布置了个大作业,使用具体的模型应用到具体的任务我写了一个基于HMM和CRF的命名实体识别代码。在此总结一下。数据集数据集是从网上获取的一个简历数据集,存储在/data目录中,分为三个文件,分别是train.char.bmes、test.char.bmes、dev.char.bmes文件。三个文件统一用BIOES标注方法...原创 2019-07-20 17:15:03 · 3097 阅读 · 2 评论 -
拉格朗日乘子法
拉格朗日乘子法求解无约束的最优化问题,通常考虑的是,对其求导数,比如梯度下降的梯度(沿反梯度方向下降最快),但是有时候我们会遇到有约束的最优化问题,我们该如何有效解决。**拉格朗日乘子法,就是通过将有约束的原问题转化为无约束的对偶问题。通过求解无约束的对偶问题,来获得原问题的最优解。**SVM模型和最大熵模型会用到拉格朗日乘子法。原始问题假设f(x),ci(x),hj(x)f(x),...原创 2018-10-24 12:01:10 · 938 阅读 · 0 评论 -
PCA(主成分分析法)详解
PCA(主成分分析法)详解PCA是一种经典的降维方法,采用组合特征的方法来进行降维。PCA方法的目的是寻找在最小均方意义下最能够代表原始数据的投影方法。假设有nnn个ddd维的样本x1,x2,...xnx_1, x_2,...x_nx1,x2,...xn,考虑用一个ddd维向量x0x_0x0,代表这nnn个样本,使其与各个样本的平方距离之和最小。即min{∑k=1n∣∣x0...原创 2018-11-12 22:07:23 · 1207 阅读 · 0 评论 -
反向传播算法
反向传播算法下图是一个三层的神经网络,分别为输入层,隐含层,输出层。反向传播算法基于此图推导下面是一些变量的含义x1,x2,x3...xnx_1, x_2,x_3...x_nx1,x2,x3...xn分别是输入单个样本向量的各个维的值y1,y2,....ynHy_1, y_2,....y_{nH}y1,y2,....ynH分别是隐含层各个单元的输出值z1,z2,......原创 2018-11-19 21:52:09 · 1035 阅读 · 0 评论 -
批量梯度下降, 随机梯度下降,小批量梯度下降
批量梯度下降, 随机梯度下降,小批量梯度下降批量梯度下降计算梯度时,使用全部的样本,换句话说就是,每一次参数更新,使用所有的样本缺点:当样本很多时,训练过程非常慢随机梯度下降计算梯度的时,仅仅使用一个样本,换句话说就是,每一次参数更新,使用一个样本。**缺点:每一次更新,计算出来的‘‘梯度’’并不是真正的梯度,**也就是说每一次更新, 并不是朝着整体最优的方向进行的。...原创 2018-12-01 23:20:00 · 1099 阅读 · 0 评论 -
决策树
决策树决策树是一种有监督的分类模型,由节点和边构成。节点分为两种,一种是树的内部节点,表示一个特征或者属性,一种是叶节点,表示一个类(标签),边代表特征的各种取值。如下图所示.用决策树进行分类时,从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点(每个子节点对应着该特征的一个取值),根据这个策略一直递归下去,直到到达叶节点,最后将实例分到叶节点的类中。比...原创 2019-03-02 14:32:02 · 215 阅读 · 0 评论 -
pytorch实现BiLSTM+CRF用于NER(命名实体识别)
pytorch实现BiLSTM+CRF用于NER(命名实体识别)在写这篇博客之前,我看了网上关于pytorch,BiLstm+CRF的实现,都是一个版本(对pytorch教程的翻译),翻译得一点质量都没有,还有一些竟然说做得是词性标注,B,I,O是词性标注的tag吗?真是误人子弟。所以自己打算写一篇关于pytorch上实现命名实体识别的翻译,加入自己的理解。前面是一些牢骚话BiLSTM...原创 2019-05-21 00:04:36 · 13425 阅读 · 7 评论 -
利用pytorch简单实现LSTM
利用pytorch简单实现LSTMLSTM的概念通过观看李宏毅的RNN视频 视频链接july关于LSTM的讲解 博客链接基本了解了LSTM的概念和原理我觉得两张图就足以概括LSTM这张图完全展示了LSTM前向反向传播的全部过程, 想深入了解的可以参考july的博客这是李宏毅老师视频里面的一张图,清晰得展示了forget Gate, inputGate, o...原创 2019-05-12 22:01:25 · 21094 阅读 · 2 评论 -
The Skip-Gram Model
The Skip-Gram Model在许多自然语言处理任务,单词一般被表示成它们的TF-IDF值。TF-IDF虽然可以用来衡量单词对文本的重要程度,但是并没有包含任何的语义信息。Word2Vec代表的是一类将词转化为向量的神经网络模型, 词向量较好得保存了词的语义信息。实体识别、文档分类、情感分析等自然语言处理任务,大多都用词向量作为特征,并取得了很好的效果。下面我们介绍一下典型的W...原创 2019-06-06 11:21:21 · 564 阅读 · 0 评论 -
pytorch损失函数
学习深度学习的过程中一直会遇到损失函数,均方损失函数、交叉熵损失函数、负对数似然损失函数有些时候觉得有点不清晰,所以总结、梳理一下,加深自己的理解MSELoss损失函数# MSELoss有一个参数 reduction='sum' 求误差和# reduction='mean', 求误差平均import torchmseLoss = torch.nn.MSELoss(reduction...原创 2019-07-02 18:19:43 · 1438 阅读 · 0 评论 -
XLNet理解
XLNet理解XLNet是CMU和谷歌大脑在6月份,提出的一个新的预训练模型。在多个任务的性能超越Bert.如果你学习过Bert、Transformer、Transformer XL, XLNet论文看起来会简单很多自回归语言模型 Autoregressive language modeling自回归语言模型通俗点讲,就是已知上文,预测上文的下一个单词。或者已知下文,预测下文的上一个...原创 2019-07-09 22:06:17 · 1678 阅读 · 6 评论 -
Bert论文理解
Bert论文理解关于Bert, 最近实在太火了,我看了Bert的原论文、Jay Alammar(博客专家)关于BERT的介绍、还有知乎张俊林大佬写的从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史稍微有点理解,所以记录下来。Bert的网络结构 Bert是一个通用的预训练模型,可以先在海量的未标注数据上,训练Bert模型,得到Bert的参数,之后在下游...原创 2019-07-04 16:47:27 · 1802 阅读 · 0 评论 -
Transformer理解
Transformer理解Transformer,是google, 2017年提出的一个特征提取模型,最近大火的Bert就是构建在Transformer的基础上的,所以我们有必要深入学习一下。下面是我通过阅读原论文、博客资料,得到的一些理解背景在Transformer未提出来之前,RNN是自然语言处理领域用得最广的深度学习框架,RNN有两个最大的缺点,一是RNN无法提取长距离依赖信息...原创 2019-07-07 12:13:38 · 1106 阅读 · 0 评论 -
梯度下降法
梯度下降法梯度下降法是求解无约束最优化问题的一种常用方法,有实现简单的优点在介绍梯度下降方法,之前先解释一下为什么沿梯度的反方向,函数值下降得最快梯度方向导数:定义$ f是定义于是定义于是定义于R^n$ 中某区域D上的函数,点 P0∈DP_0 \in DP0∈Dlll为一给定的非零向量,PPP为一动点,向量 P0PP_0PP0P 与l的方向始终一致。如果极限lim∥...原创 2018-10-21 16:18:53 · 472 阅读 · 0 评论