深度学习
文章平均质量分 50
ZcsLv_zyq
这个作者很懒,什么都没留下…
展开
-
(一)从rnn attention 到 attention withouot rnn 再到transformer
由c的公式可知,每个step的输出c不仅与当前step的输入x有关,更与encoder所有的step的k、v有关,因此它能用到encoder所有的信息。1)得到QKV,去掉rnn之后,直接用输入的词向量去得到KV,与之前的相比,不同的是用词向量去代替RNN的每一个step得到的隐状态h。与attentionlayer不同的是,它输入序列只有一个X,但每一个输出的c与所有的输入x有关,而不是当前step的x。2)K与decoder的当前step的状态s进行softmax操作,得到权重矩阵A。...原创 2022-08-01 10:43:25 · 211 阅读 · 1 评论 -
transformer:从公式、图片具体理解
3、multi-head self-attention\attentionsingle self-attentionmulti-head self attention本质上就是多个single self-attettnion的堆叠,每个都享有不同的权重,最后再及进行concatmulti-head attention4. 堆积多头注意力变成transformerencoder ,用到了stacked self-attentions每个block层的原创 2021-12-21 22:22:22 · 818 阅读 · 2 评论 -
Attention、self-attention:从计算、公式的角度详解
参考:这个视频量短而精https://www.youtube.com/watch?v=XhWdv7ghmQQGitHub - wangshusen/DeepLearning以机器翻译、rnn-seq2se2引入attention为例1.attention最早提出attention的是15年的这篇论文在encoder结束之后,output一个全局的s0,这包含了h1...hm的所有信息,同时s0也作为decoder的input。用权重apha表示s和h的相关性,..原创 2021-12-17 11:49:27 · 647 阅读 · 0 评论 -
nn.RNN的参数理解
pytorch lstm input_size, hidden_size说明_蓝羽飞鸟的博客-CSDN博客_input_size可视化:pytorch lstm input_size, hidden_size说明_蓝羽飞鸟的博客-CSDN博客_input_sizepytorch中nn.Embedding和nn.LSTM和nn.Linear - 代码先锋网原创 2021-12-14 09:58:14 · 808 阅读 · 0 评论 -
【论文阅读】01 bilstm_crf
原创 2021-12-09 08:55:28 · 225 阅读 · 0 评论 -
bilstm_crf中crf
首先如果我们想像一下,如果没有加crf,billstm能不能做序列标注,也可以。它其实就是转化为了一个多分类问题,但是加入了crf时,就加入了一个约束,效果会更准确。至于这个约束到底是什么?后文会提到。围绕这两个问题来进行效果为什么会更好? loss函数如何计算的? 线性crf又是什么? 问题1 看CRF的作用以单词“中国”为例,它的真实标注应该是“B I",中国=“B I",但是经过lstm之后,选用得分最高对应的标签,得到的是”BB",这是通过得分...原创 2021-12-08 19:58:36 · 555 阅读 · 2 评论 -
CRF_demo+实现
crf和hmm model相同 training不同原创 2021-12-07 09:19:44 · 100 阅读 · 0 评论 -
【encoder-decoder】
为什么要设计它? 其实它只是一个框架,类似于房子的地基,需要在上面填东西。初衷是为了解决输入输出序列长度不一致的问题? 为什么它可以把任意长度的序列去转换成固定长度的序列? 与填充这个框架所用的模型有关,例如cnn、rnn、seq2seq rnn:rnn能处理任意长度的时序信息。我的理解是,因为它的隐藏层是可以固定的,所以它的长度是固定的,所以可以转化为固定的长度。 cnn: seq2seq:Seq2Seq 是指输入和输出都是序列的模型的统称。 1 基于rnn、seq2s原创 2021-12-02 11:00:36 · 283 阅读 · 0 评论 -
inception network(bottlle neck)
same填充?同样的输入,达到了同样的输出。但第二种方法是通过用一个1*1的卷积核去实现降维,得到的中中间这一块也叫做(bottle neck)一方便减少了计算成本;另一方面,它可以不用和第一种方法一样去考虑用多大的卷积核,是否用池化层等。这就是inception的基本模块。...原创 2021-11-27 11:26:52 · 210 阅读 · 0 评论