![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
attention
Zjhao666
泰山不择细壤,故能成其大;江河不择细流,故能成其深。
展开
-
ABCNN Attention-Based Convolutional Neural Network for Modeling Sentence Pairs笔记
一、基本的BCNN 1、输入 两个(长度不一定相同的)句子 长度分别为s0,s1 s=max(s0,s1) 每一个word都用词向量表示了,词向量维度为d0,默认300 所以每个句子都是个d0*s的矩阵 2、卷积层 vi 句子中第i个word 卷积部分为vi-w+1到vi,即长度为w,如果在原始范围之外则用0填充。 使用卷积层权重,即利用卷积部分里的每一个word的词向量,0&...原创 2019-09-01 13:38:38 · 554 阅读 · 0 评论 -
Effective Approaches to Attention-based Neural Machine Translation笔记
一、概要 时间步t 1 首先使用最顶层堆叠LSTM的隐含层ht作为输入,以获得语境向量ct 2 进而预测出目标单词yt global和local的区别仅在于语境向量ct的获取方式 3 拼接隐含层ht和语境向量ct,以获得注意力隐含层状态 4 接着注意力向量ht通过softmax层去生成预测分布 二、global attention 关注全局 思想:在生成语境向量ct时...原创 2019-08-31 11:53:35 · 275 阅读 · 0 评论 -
Neural-Machine-Translation-by-Jointly-Learning-to-Align-and-Translate笔记
时间步i yi 目标单词 si RNN隐含层状态 ci 上下文向量 x 输入单词词向量 最大化条件概率 其中si由生成。 hj 单词j的注释(词向量) a 前向神经网络 上下文语境向量ci生成方式 时间步i单词j生成的概率 对eij进行softmax 上下文语境向量 ...原创 2019-08-31 10:40:11 · 207 阅读 · 0 评论 -
attention is all you need笔记
传统 encoder 输入:符号序列 x1,…,xn 输出:连续表示z1,…,zn decoder 输入:连续表示z1,…,zn 输出:符号序列y1,….ym 作者原创 transformer 使用堆叠的self-attention和point-wise,全连接层。(左encoder,右decoder) transformer结构图 encoder 由6个相同层堆叠...原创 2019-09-02 11:00:09 · 459 阅读 · 0 评论