TimsonShi-CSDN博客

原创神经翻译笔记7扩展a. Transformer的解释分析研究工作汇编

文章目录神经翻译笔记7扩展a. Transformer的解释分析研究工作汇编Transformer的整体结构编码器解码器注意力的头自注意力机制编-解码器注意力与对齐信息提取层归一化参考文献附录：若干文献的具体研究方法[WangWenxuan2020]信息流贡献对表示泛化能力的影响[YangYilin2020][Raganato2020]附录部分参考文献神经翻译笔记7扩展a. Transformer的解释分析研究工作汇编Transformer自2017年提出以来，先是由于其效果显著好于基于RNN的编码器-

2021-06-22 00:28:13 682

原创神经翻译笔记7. Transformer

文章目录神经翻译笔记7. Transformer体系结构多头注意力注意力机制的一般形式Transformer基本单元所使用的注意力机制多头注意力机制每个位置上的前馈网络位置编码其它词嵌入Dropout神经翻译笔记7. Transformer编码器-解码器架构，是使用神经网络方法作为机器翻译问题解决方案的基石，自问世以来广受关注，也获得了比较大的成功。然而，这种架构主要使用是RNN，而由前面对RNN的介绍可知，这种网络在时刻ttt的隐藏状态是由前一时刻的隐藏状态和该时刻的输入共同计算得出，因此不太好并行化

2021-01-22 22:15:44 471

原创神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用

文章目录神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用CNN的基本原理卷积卷积的定义CNN中的基本二维卷积操作对二维卷积操作的扩展二维卷积总结一维卷积为什么使用卷积池化典型CNN结构CNN在机器翻译中的应用ByteNetConvS2S卷积层多步注意力机制其它设计细节带有CNN思想的RNNQuasiRNN基本结构变种参考文献神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用本章主要记录卷积神经网络（及其常见的附加操作，例如池化操作）的原理，及其在机器翻译中的使用方法。此外，在附录中，会填补前面在写

2020-12-24 22:16:50 2299 1

原创神经翻译笔记5扩展d. PyTorch学习笔记

文章目录神经翻译笔记5扩展d. PyTorch学习笔记PyTorch与张量自动微分简介示例进一步的数学解释示例2. “冷冻”某个子图以微调预训练模型使用PyTorch定义一个神经网络定义网络损失函数和参数更新常用的PyTorch包及其连携`torch.utils.data.Dataset``torch.utils.data.DataLoader``torch.optim``torch.nn`构造函数成员变量的设置`parameters()``forward()`和`__call__`结语神经翻译笔记5扩展

2020-10-27 00:08:26 328

原创神经翻译笔记5扩展c. 机器翻译系统的常见评价指标

文章目录神经翻译笔记5扩展c. 机器翻译系统的常见评价指标BLEUBLEU-SBPSacreBLEUchrFNISTMETEORTERWER参考文献神经翻译笔记5扩展c. 机器翻译系统的常见评价指标BLEUBLEU[BLEU]是机器翻译领域最悠久、最常用、最经典的指标。大部分机器翻译论文甚至只使用这一个指标作为系统的评价标准，其重要性可见一斑BLEU背后的直觉是，如果机器翻译系统产生的结果和专业的人工翻译越接近，那么这个系统越好。这里“接近”程度是通过计算翻译结果中词语和短语对人工答案的命中度来评价

2020-09-22 22:46:22 1342

原创神经翻译笔记5扩展b. 常用的机器翻译技巧

文章目录神经翻译笔记5扩展b. 常用的机器翻译技巧组合解码单语数据应用重排序领域适配参考文献神经翻译笔记5扩展b. 常用的机器翻译技巧本节介绍提升机器翻译系统效果的常见手段。这些手段有些实际上是深度学习的通用技巧，有些在神经翻译出现后不久就被人提出，经过若干发展沿用至今，有些甚至在统计翻译时代就已出现。无论如何，这些手段独立于模型架构存在，都不仅能够增强模型效果，还展现了顽强的生命力以及良好的通用性本节参考了Koehn的NMT综述13.6.1、13.6.3、13.6.7三小节的内容，并根据个人喜好作了

2020-08-11 01:13:59 541

原创神经翻译笔记5扩展a：序列到序列模型解码的二三事

文章目录神经翻译笔记5扩展a. 序列到序列模型解码的二三事惩罚机制增加解码结果的多样性带“温度”的集束搜索多样化集束搜索随机搜索参考文献神经翻译笔记5扩展a. 序列到序列模型解码的二三事本章的（即神经翻译笔记5）主要围绕编码器解码器模型（这个名词与序列到序列模型混用，本章内不再赘述）展开，在上一节的核心知识点里，已经介绍了解码器的主流解码过程——集束搜索。这一解码方法得到了非常广泛的应用，在机器翻译领域已经成为了标配。但是，该方法也存在两个问题难以控制句子长度难以控制句子多样性。这一点对机器翻译问

2020-07-04 21:46:55 3647

原创神经翻译笔记5. 序列到序列模型与注意力机制

本系列笔记从2018年3月开始编写，虽然题名为“神经翻译笔记”，但是历经2年3个月，虽然偶尔提到一些神经翻译使用的方法（例如subword），却仍并未真正涉及机器翻译本身，颇有点“博士买驴”的感觉。不过从本章开始，终于要进入正题，聊一聊神经机器翻译用到的核心技术了（然而要跟上时代，讲述Transformer，可能还需要过很久）本章的主要内容是讲述基于RNN的编码器解码器结构与注意力机制，本文参考如下课程讲义和教材：Koehn的NMT综述，13.5节（主要参考来源，结构遵从此文）Neubig的NMT和

2020-06-22 00:11:22 1666

原创神经翻译笔记4扩展d. 迁移学习概述与前BERT时代的NLP预训练模型

神经翻译笔记4扩展d. 前BERT时代的NLP预训练模型迁移学习多任务学习（MTL）ULMFitELMo原理参考文献本节仍然是为了系列笔记的完整性而做，主要介绍迁移学习的概念，以及BERT出现之前NLP领域两个重要的预训练模型ULMFit和ELMo迁移学习本节完全来自于Sebastian Ruder博士论文的第三章在经典的有监督学习中，如果要为某个任务或某个领域AAA训练模型，一般会假设我们对此任务/领域有足够数据，而且也只能预期模型在同样的任务/领域上能够取得不错的效果——也就是说，前提假设是数据

2020-06-12 01:28:34 551

Timson的NLP笔记本

原创神经翻译笔记7扩展a. Transformer的解释分析研究工作汇编

原创神经翻译笔记7. Transformer

原创神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用

原创神经翻译笔记5扩展d. PyTorch学习笔记

原创神经翻译笔记5扩展c. 机器翻译系统的常见评价指标

原创神经翻译笔记5扩展b. 常用的机器翻译技巧

原创神经翻译笔记5扩展a：序列到序列模型解码的二三事

原创神经翻译笔记5. 序列到序列模型与注意力机制

原创神经翻译笔记4扩展d. 迁移学习概述与前BERT时代的NLP预训练模型

原创神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展

原创神经翻译笔记4扩展b. RNN的正则化方法

原创神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览

原创神经翻译笔记4扩展a第一部分. RNN在TF1.x中的实现方法略览

原创神经翻译笔记4. 循环神经网络（RNN）

原创神经翻译笔记3扩展e第4部分. 文档的简单分布式表示

原创跨语言词向量笔记9. 挑战与未来研究方向

原创跨语言词向量笔记8. 有助益的数据和工具

原创跨语言词向量笔记7. 无监督跨语言词向量

原创跨语言词向量笔记6. 从跨语言词向量到多语言词向量

原创跨语言词向量笔记5. 文档级别对齐方法

原创跨语言词向量笔记4. 句级别对齐方法

原创跨语言词向量笔记3. 词级别对齐方法

原创跨语言词向量笔记2. 跨语言词向量表示简史

原创跨语言词向量笔记1. 序言与分类方法

原创神经翻译笔记3扩展e第2部分. Subword

原创神经翻译笔记3扩展e第1部分. Word2Vec原理及若干关于词向量的扩展知识

原创神经翻译笔记3扩展d. 神经网络的泛化

原创神经翻译笔记3扩展c. 神经网络的初始化

原创神经翻译笔记3扩展b. 自动微分

原创神经翻译笔记3扩展a. 深度学习的矩阵微积分基础

原创神经翻译笔记3. 神经网络语言模型与词向量

原创神经翻译笔记2扩展b. 优化方法

原创神经翻译笔记2扩展a. 损失函数

原创神经翻译笔记2. Log-linear语言模型

原创神经翻译笔记1. 统计语言模型之N元语法

空空如也

空空如也