《Convolutional Sequence to Sequence Learning》阅读笔记

最新推荐文章于 2024-07-11 09:23:29 发布

置顶

不是星辰的成

最新推荐文章于 2024-07-11 09:23:29 发布

阅读量299

点赞数

分类专栏：论文阅读文章标签： DeepLearning Nature Machine Translation

本文链接：https://blog.csdn.net/weixin_45340809/article/details/99818736

版权

论文地址：Convolutional Sequence to SequenceLearning
代码地址：facebookresearch/fairseq

1. 为什么要选择 CNN 做机器翻译?

相比 RNN:

CNN 能够并行处理数据，计算更高效;
CNN 是层级结构，底层的CNN捕捉相聚较近的词之间的依赖关系，高层CNN捕捉较远词之间的依赖关系。

2. 模型

1. Position Embedding

输入为: x = ( $x_1, ..., x_m$ )

词向量表示输入: w = ( $w_1, ..., w_m$ ) 其中 $w_j \in R^f$ , 词汇表为 $\in R^{V \times f}$

位置信息: p = ( $p_1, ..., p_m$ ) 其中 $p_j \in R^f$

输入最终表示向量: e = ( $w_1 + p_1, ..., w_m + p_m$ ) 其中 $e_j \in R^f$

2. Convolutional Block Structure

encoder:

假设词向量的维数为 d 维

先把 e 做线性映射:
$h_i^0 = We_i + b \in R^h$

把一次"卷积计算 + 非线性计算" 看做一个单元 Convolutional Block.

卷积计算: 对原输入进行卷积窗口大小为 k 的 2h个卷积核做卷积运算, 则每次卷积生成两列 h维的向量，以 $k = 3$ 为例 $f_i^1 = C$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不是星辰的成

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

机器翻译模型之Fairseq：《Convolutional Sequence to Sequence Learning》

技术成长笔记

11-04

1万+

近年来，NLP领域发展迅速，而机器翻译是其中比较成功的一个应用，自从2016年谷歌宣布新一代谷歌翻译系统上线，神经机器翻译（NMT，neural machine translation）就取代了统计机器翻译（SMT，statistical machine translation），在翻译质量上面获得了大幅的提高。目前神经机器翻译模型主要分为三种： 1. 一种是以rnn为基础的模型，一般是LSTM...

sequence-to-sequence learning

12-18

机器学习之sequence to sequence learning。（Sequence Generation-----Hung-yi Lee 李宏毅.ppt）

参与评论您还未登录，请先登录后发表或查看评论

Convolutional Sequence to Sequence Learning

人工智能

05-10

8256

Convolutional Sequence to Sequence Learning Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N. Dauphin (Submitted on 8 May 2017) The prevalent approach to sequence to sequ

A Paper A Day: #1 Convolutional Sequence to Sequence Learning

chuange6363的博客

09-10

143

从今天开始，我会对一些研究论文做一个简短的摘要，我个人比较关注的领域是机器学习，强化学习和自然语言处理。我希望这个简短的摘要可以帮助到你。当然，我也有别的目的。我希望我能通过每天的阅读，可以帮助我提高论文写作和分析能力。今天，我们来讨论一下最近的 Facebook AI research（...

Sequence to Sequence Learningwith Neural Networks

最新发布

2302_79085918的博客

07-11

664

深度神经网络（DNN）非常强大，可以在困难的学习任务上取得非常优异的性能。尽管只要有大型标记训练集可用。DNN存在缺陷：不能用于将序列映射到序列。一种通用的端到端序列的学习方法，该方法对序列结构做出最少的假设，使用多层长短期记忆（LSTM）将输入序列映射到固定维度的向量，然后使用另一个深度LSTM从向量解码目标序列。结果：从WMT'14数据集的英语到法语翻译任务中，LSTM生成的翻译在整个测试集上的BLEU（评估质量）得分为34.8。

[2014]Sequence to Sequence Learning with Neural Networks

Deep Learning and NLP Farm

09-20

807

之所以看这篇文章是因为很多文章都引用了，后知后觉的发现原来是sequence to sequence的经典之作，以非常虔诚的态度读了一遍。之前RNN解决的问题：（单个RNN解决此问题）输入序列和输出序列长度一致，比如词性标注，命名实体识别等等，此类问题单个RNN即可解决，输出序列和输入序列对应但是还有另一类问题：（本文致力于解决的问题）输入序列的长度和输出的序列不一定长度相同，比如

Convolutional Sequence to Sequence Learning卷积序列到序列模型的学习

DongxueB的博客

06-12

1584

在本笔记本中，我们将实现论文Convolutional Sequence to Sequence Learning模型。这个模型与之前笔记中使用的先前模型有很大的不同。根本没有使用任何循环的组件。相反，它使用通常用于图像处理的卷积层。简而言之，卷积层使用了过滤器。这些过滤器有一个宽度(在图像中也有一个高度，但通常不是文本)。如果一个过滤器的宽度为3，那么它可以看到3个连续的标记。每个卷积层都有许多这样的过滤器(本教程中是1024个)。每个过滤器将从开始到结束滑过序列，一次查看所有3个连续的标记。...

Sequence to Sequence Learning with Neural Networks论文笔记

u013261340的博客

09-24

2086

摘要 Dnn是强大的模型，在困难的学习任务上取得了出色的表现。尽管每当有很大的标签训练集时，DNN都能很好的工作，但是他们不能用于将序列映射到序列的工作。在本文中，我们提出了一般端到端的方法，对序列标签做出最小假设。我们的方法使用多层LSTM将输入序列映射到固定维度的向量，然后在使用另一个深LSTM来从向量中解码目标序列。 Introduction (1)DNN介绍，举例。很强大（2）尽

Deep learning From Image to Sequence

热门推荐

Rachel Zhang的专栏

10-10

2万+

本文笔记旨在概括地讲deep learning的经典应用。内容太大，分三块。 1. 回顾 deep learning在图像上的经典应用 1.1 Autoencoder 1.2 MLP 1.3 CNN<详细的见上一篇CNN> 2. deep learning处理语音等时序信号 2.1 对什么时序信号解决什么问题 2.2 准备知识 2.2.1 Hidden Markov Model(HMM) 2.2.2 GMM-HMM for Speec

Learning how to learn deep learning（学习笔记）

bluebloodye的专栏

11-11

311

Learning how to learn deep learning You are asoftware engineer who works with code every day, building complex things, turning business requirements into application logic andshipping mostly onti...

Sequence to Sequence Learning with Neural Networksv论文

04-17

Sequence to Sequence Learning with Neural Networksv论文PDF版

Sequence to Sequence Learningwith Neural Network

kuxingseng123的博客

10-16

1005

慢慢斟酌，将LSTM慢慢地将其搞定都行啦的样子与打算。全部都慢慢的不断打磨和学习。

【论文阅读】Convolutional Sequence to Sequence Learning （未完待续）

独钓寒江雪

06-14

4960

论文github地址值得阅读与一试： https://github.com/facebookresearch/fairseq 以往谈到sequence to sequence，往往会下意识地想到 RNN，但这篇文章告诉我们，CNN 不仅可以做 sequence to sequence，不仅在大规模机器翻译的训练数据上结果比 RNN 要好，而且模型更加易于优化与加速。好，下面开

【论文阅读】Sequence to Sequence Learning with Neural Networks

u013914391的博客

08-05

1210

看论文时查的知识点前馈神经网络就是一层的节点只有前面一层作为输入，并输出到后面一层，自身之间、与其它层之间都没有联系，由于数据是一层层向前传播的，因此称为前馈网络。 BP网络是最常见的一种前馈网络，BP体现在运作机制上，数据输入后，一层层向前传播，然后计算损失函数，得到损失函数的残差，然后把残差向后一层层传播。卷积神经网络是根据人的视觉特性，认为视觉都是从局部到全局认知的，因此不全部采用...

[论文笔记]Sequence to Sequence Learning with Neural Networks

上善若水

09-09

854

本文主要是记录一下研究生阶段看的第一篇论文，这是一篇Google发表在14年的论文，介绍了现在被广泛使用的Sequence to Sequence模型，参考了网上的一些论文笔记。论文结构摘要论文主要内容总结 1. 摘要深度神经网络DNN已经被证明是一个很好的工具在处理复制问题时有很好表现效果的工具，同时他也有自己的缺点，即需要大量的标注数据且不能处理序列到序列的映射。于是作者提出了...

【论文笔记】Sequence to Sequence Learning with Neural Networks

人间不值得

10-29

6850

Sequence to Sequence Learning with Neural Networks Abstract：DNN可以在有大量标记训练集下表现很好，但是无法处理用于序列映射到序列。在本文中，我们提出了一种端到端的序列训练方法，可以对序列结构做最小的假设。我们的方法使用了多层LSTM将输入序列映射成一个固定维度的向量，然后用另一个深度LSTM从向量中解码出目标序...

【论文阅读】Sequence to Sequence Learning with Neural Network

weixin_30641999的博客

08-06

231

Sequence to Sequence Learning with NN 《基于神经网络的序列到序列学习》原文google scholar下载。 @author: Ilya Sutskever (Google)and so on 一、总览 DNNs在许多棘手的问题处理上取得了瞩目的成绩。文中提到用一个包含2层隐藏层神经网络给n个n位数字排序的问题。如果有好的学习策略，DNN能够在监督...

（翻译）Sequence to Sequence Learning with Neural Networks

Hope^_^

09-02

2614

2 模型 RNN，给定一个输入序列（x1,x2，…，xT），RNN通过循环计算下面的式子得到一个输出序列（y1,y2,…,yT）如何一个input和output是对应的，比如输入单词，输出是词性，就可以用RNN映射，本文是解决输入输出之间没有对应关系的时候的问题，比如聊天，输入是5个词，输出是10个词，

Sequence to Sequence Learning with Neural Networks，从RNN开始

Duncan_yitong的博客

11-26

1315

Sequence to Sequence Learning with Neural Networks，从RNN开始 ***Sequence to Sequence Learning with Neural Networks***这篇文章是Google在2014年发表的较早的使用了Seq2Seq结构的文章，实现了从输入序列映射到不等长的输出序列的学习，在机器翻译的任务中，取得了非常好的成绩。作者首先...

COCOACollaborative Convolutional Metric Learning

04-04

COCOA (Collaborative Convolutional Metric Learning) is a deep learning method for metric learning that aims to learn a similarity metric between pairs of images. It is designed for image retrieval ...