自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 神经翻译笔记7扩展a. Transformer的解释分析研究工作汇编

文章目录神经翻译笔记7扩展a. Transformer的解释分析研究工作汇编Transformer的整体结构编码器解码器注意力的头自注意力机制编-解码器注意力与对齐信息提取层归一化参考文献附录:若干文献的具体研究方法[WangWenxuan2020]信息流贡献对表示泛化能力的影响[YangYilin2020][Raganato2020]附录部分参考文献神经翻译笔记7扩展a. Transformer的解释分析研究工作汇编Transformer自2017年提出以来,先是由于其效果显著好于基于RNN的编码器-

2021-06-22 00:28:13 580

原创 神经翻译笔记7. Transformer

文章目录神经翻译笔记7. Transformer体系结构多头注意力注意力机制的一般形式Transformer基本单元所使用的注意力机制多头注意力机制每个位置上的前馈网络位置编码其它词嵌入Dropout神经翻译笔记7. Transformer编码器-解码器架构,是使用神经网络方法作为机器翻译问题解决方案的基石,自问世以来广受关注,也获得了比较大的成功。然而,这种架构主要使用是RNN,而由前面对RNN的介绍可知,这种网络在时刻ttt的隐藏状态是由前一时刻的隐藏状态和该时刻的输入共同计算得出,因此不太好并行化

2021-01-22 22:15:44 397

原创 神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用

文章目录神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用CNN的基本原理卷积卷积的定义CNN中的基本二维卷积操作对二维卷积操作的扩展二维卷积总结一维卷积为什么使用卷积池化典型CNN结构CNN在机器翻译中的应用ByteNetConvS2S卷积层多步注意力机制其它设计细节带有CNN思想的RNNQuasiRNN基本结构变种参考文献神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用本章主要记录卷积神经网络(及其常见的附加操作,例如池化操作)的原理,及其在机器翻译中的使用方法。此外,在附录中,会填补前面在写

2020-12-24 22:16:50 2014 1

原创 神经翻译笔记5扩展d. PyTorch学习笔记

文章目录神经翻译笔记5扩展d. PyTorch学习笔记PyTorch与张量自动微分简介示例进一步的数学解释示例2. “冷冻”某个子图以微调预训练模型使用PyTorch定义一个神经网络定义网络损失函数和参数更新常用的PyTorch包及其连携`torch.utils.data.Dataset``torch.utils.data.DataLoader``torch.optim``torch.nn`构造函数成员变量的设置`parameters()``forward()`和`__call__`结语神经翻译笔记5扩展

2020-10-27 00:08:26 275

原创 神经翻译笔记5扩展c. 机器翻译系统的常见评价指标

文章目录神经翻译笔记5扩展c. 机器翻译系统的常见评价指标BLEUBLEU-SBPSacreBLEUchrFNISTMETEORTERWER参考文献神经翻译笔记5扩展c. 机器翻译系统的常见评价指标BLEUBLEU[BLEU]是机器翻译领域最悠久、最常用、最经典的指标。大部分机器翻译论文甚至只使用这一个指标作为系统的评价标准,其重要性可见一斑BLEU背后的直觉是,如果机器翻译系统产生的结果和专业的人工翻译越接近,那么这个系统越好。这里“接近”程度是通过计算翻译结果中词语和短语对人工答案的命中度来评价

2020-09-22 22:46:22 1141

原创 神经翻译笔记5扩展b. 常用的机器翻译技巧

文章目录神经翻译笔记5扩展b. 常用的机器翻译技巧组合解码单语数据应用重排序领域适配参考文献神经翻译笔记5扩展b. 常用的机器翻译技巧本节介绍提升机器翻译系统效果的常见手段。这些手段有些实际上是深度学习的通用技巧,有些在神经翻译出现后不久就被人提出,经过若干发展沿用至今,有些甚至在统计翻译时代就已出现。无论如何,这些手段独立于模型架构存在,都不仅能够增强模型效果,还展现了顽强的生命力以及良好的通用性本节参考了Koehn的NMT综述13.6.1、13.6.3、13.6.7三小节的内容,并根据个人喜好作了

2020-08-11 01:13:59 477

原创 神经翻译笔记5扩展a:序列到序列模型解码的二三事

文章目录神经翻译笔记5扩展a. 序列到序列模型解码的二三事惩罚机制增加解码结果的多样性带“温度”的集束搜索多样化集束搜索随机搜索参考文献神经翻译笔记5扩展a. 序列到序列模型解码的二三事本章的(即神经翻译笔记5)主要围绕编码器解码器模型(这个名词与序列到序列模型混用,本章内不再赘述)展开,在上一节的核心知识点里,已经介绍了解码器的主流解码过程——集束搜索。这一解码方法得到了非常广泛的应用,在机器翻译领域已经成为了标配。但是,该方法也存在两个问题难以控制句子长度难以控制句子多样性。这一点对机器翻译问

2020-07-04 21:46:55 3566

原创 神经翻译笔记5. 序列到序列模型与注意力机制

本系列笔记从2018年3月开始编写,虽然题名为“神经翻译笔记”,但是历经2年3个月,虽然偶尔提到一些神经翻译使用的方法(例如subword),却仍并未真正涉及机器翻译本身,颇有点“博士买驴”的感觉。不过从本章开始,终于要进入正题,聊一聊神经机器翻译用到的核心技术了(然而要跟上时代,讲述Transformer,可能还需要过很久)本章的主要内容是讲述基于RNN的编码器解码器结构与注意力机制,本文参考如下课程讲义和教材:Koehn的NMT综述,13.5节(主要参考来源,结构遵从此文)Neubig的NMT和

2020-06-22 00:11:22 1516

原创 神经翻译笔记4扩展d. 迁移学习概述与前BERT时代的NLP预训练模型

神经翻译笔记4扩展d. 前BERT时代的NLP预训练模型迁移学习多任务学习(MTL)ULMFitELMo原理参考文献本节仍然是为了系列笔记的完整性而做,主要介绍迁移学习的概念,以及BERT出现之前NLP领域两个重要的预训练模型ULMFit和ELMo迁移学习本节完全来自于Sebastian Ruder博士论文的第三章在经典的有监督学习中,如果要为某个任务或某个领域AAA训练模型,一般会假设我们对此任务/领域有足够数据,而且也只能预期模型在同样的任务/领域上能够取得不错的效果——也就是说,前提假设是数据

2020-06-12 01:28:34 470

原创 神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展

文章目录神经翻译笔记4扩展c. 2017-2019年间RNN的新进展QuasiRNNFS-RNN参考文献神经翻译笔记4扩展c. 2017-2019年间RNN的新进展尽管在本文写作时(2020年初),基于Transformer结构的预训练语言模型已经大杀四方,BERT都已经成为明日黄花,在其基础上衍生的各种变体,例如RoBERTa、ALBERT、BART等等长江后浪推前浪,使得基于RNN的语言模...

2020-05-11 00:06:33 863

原创 神经翻译笔记4扩展b. RNN的正则化方法

文章目录神经翻译笔记4扩展b. RNN的正规化方法对dropout的扩展层归一化参考文献神经翻译笔记4扩展b. RNN的正规化方法本系列笔记前文介绍了若干神经网络常用的泛化方法,本文将延续这一话题,介绍若干适用于RNN的泛化/正规化方法对dropout的扩展层归一化[Ba2016]认为批归一化(BN)虽然原理简洁能有效提升收敛速度,但是很难适用于RNN上。因为RNN的输入是变长的,因此需...

2020-03-12 23:57:19 1275

原创 神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览

神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览文章目录神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览相关基类`tf.keras.layers.Layer``recurrent.DropoutRNNCellMixin`RNNCell相关`LSTMCell``PeepholeLSTMCell``StackedRNNCells``AbstractRNNCell`...

2020-02-28 00:11:31 626

原创 神经翻译笔记4扩展a第一部分. RNN在TF1.x中的实现方法略览

神经翻译笔记4扩展a. RNN在深度学习框架中的实现方法略览TF对RNN的实现TF1.x中对RNN的实现RNN cell的实现`keras.engine.base_layer.Layer`的实现TF对RNN的实现TF1.x中对RNN的实现本小节主要讨论TF1.14对RNN的实现。考虑到更老的版本实现可能有差别,且有些过时,因此这里略过。另外,本文主要讨论tf.nn中各RNN cell和网络结...

2020-02-08 23:10:12 423 1

原创 神经翻译笔记4. 循环神经网络(RNN)

神经翻译笔记4. 循环神经网络(RNN) 普通RNN (Vanilla RNN)RNN的反向传播事与愿违的RNN基于门控单元的RNN长短期记忆网络 (LSTM)门控循环单元 (GRU)双向的RNN与更深的RNN双向RNN堆叠RNN批量训练RNNRNN能解决的任务参考文献本文来自于如下来源[Neubig2017]第6节(主要来源,结构遵从此文)[Koehn2017]13.4.4、13.4.5...

2019-10-21 23:06:11 1432

原创 神经翻译笔记3扩展e第4部分. 文档的简单分布式表示

神经翻译笔记3扩展e第4部分. 文档的简单分布式表示基于词向量的简单池化Doc2vec参考文献词的嵌入表示可以看作是深度学习时代自然语言处理的基石,但是自然语言处理的核心任务还是要处理更高级的语言结构,例如句子和文档。在获得了词的分布式表示以后,人们很自然地会思考如何对句子和文档也获得类似的表示结果。本文将介绍一些不涉及到更复杂网络结构(例如RNN)的句子/文档表示方法,其它更高级的方法将在介绍...

2019-10-21 23:01:23 374

原创 跨语言词向量笔记9. 挑战与未来研究方向

跨语言词向量笔记9. 挑战与未来研究方向本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings本书提出了如下几点未来可能的研究方向Subword级别的信息。对于词形态比较丰富的语言,单词内...

2019-10-10 22:44:04 469

原创 跨语言词向量笔记8. 有助益的数据和工具

跨语言词向量笔记8. 有助益的数据和工具单语资源本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings。(本系列笔记跳过了原书的第10章“评估方法和应用场景”,这一章传递的最核心的意思是,跨语言...

2019-10-09 23:41:59 455

原创 跨语言词向量笔记7. 无监督跨语言词向量

跨语言词向量笔记7. 无监督跨语言词向量种子词典的推导基于GAN的方法基于ICP的方法其它方法精化与启发式算法无监督方法的局限性参考文献本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings在...

2019-10-04 21:53:23 1836 1

原创 跨语言词向量笔记6. 从跨语言词向量到多语言词向量

跨语言词向量笔记6. 多语言词向量表示使用词级别信息的多语词嵌入基于映射的方法使用人工混合语料和联合训练的方法使用句级别/文档级别信息的多语词嵌入参考文献本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Emb...

2019-10-04 21:51:40 1415

原创 跨语言词向量笔记5. 文档级别对齐方法

跨语言词向量笔记5. 文档级别对齐方法本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings由于篇章对齐的数据实际上包含了大量句子对齐的数据,可以用上一章介绍的方法训练跨语言词向量模型,因此本...

2019-10-04 21:50:21 660

原创 跨语言词向量笔记4. 句级别对齐方法

跨语言词向量笔记4. 句级别对齐方法使用平行语料的句子级别方法组成法双语自编码器双语skip-gram其它方法使用可比较数据的句级别对齐方法参考文献本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embedd...

2019-10-04 21:46:36 1699 2

原创 跨语言词向量笔记3. 词级别对齐方法

跨语言词向量笔记3. 词级别对齐模型使用**平行数据**的单词级别对齐方法基于映射的方法映射方法回归方法正交方法典型方法(canonical)边界方法(margin)种子词典微调提取通过改造法(retrofitting)求跨语言嵌入人工混合法联合方法映射法、联合法和人工混合法有时是等价的使用可比较数据的词级别对齐方法参考文献本文完全来自于Anders Søgaard等人的著作[Søgaard20...

2019-10-04 21:41:48 2300 2

原创 跨语言词向量笔记2. 跨语言词向量表示简史

跨语言词向量笔记2. 跨语言词向量表示简史使用双语词典的跨语言词向量表示跨语言词嵌入与词对齐基于隐式/显式跨语言概念的表示结语尽管原书讨论的是跨语言词向量的获得方法,但是在使用神经网络获得词向量的时代来临之前,学界就已经有类似工作开展,彼时的一些研究思路实际上也指导了现在的一些方法。本文简单介绍了这些“史前方法”。独立于语言的表示方法已经被学界研究了数十年,很多都依赖于正字法特征或抽象的语言学特...

2019-10-04 21:35:42 2369

原创 跨语言词向量笔记1. 序言与分类方法

跨语言词嵌入笔记1. 序言与分类方法本文所用记号跨语言词向量建模方法分类参考文献本文完全来自于Anders Søgaard等人的著作[Søgaard2019]提出跨语言词向量的目的是在跨语言应用中表示各语言单词词义,并跨语言传递学到的知识。跨语言词向量使得模型可以在多语言上下文中推理词义,也可以计算不同语言单词的相似度,有利于跨语信息提取。此外,由于跨语词向量有助于跨语言传递学到的知识,因此当...

2019-10-04 21:01:29 862 3

原创 神经翻译笔记3扩展e第2部分. Subword

文章目录NMT Tutorial 3扩展e第2部分. Subword序言分词方法介绍BPE原理与算法使用Morfessor术语方法模型与损失函数似然先验训练与解码算法参数初始化全局维特比算法局部维特比算法递归算法似然权重与半监督学习fastText算法原理实现参考文献附录MAP估计HMM模型马尔可夫模型马尔可夫链隐马尔可夫模型求解似然问题:前向算法求解解码问题:维特比算法求解学习问题:前向-后向算...

2019-05-06 14:23:45 1547

原创 神经翻译笔记3扩展e第1部分. Word2Vec原理及若干关于词向量的扩展知识

文章目录神经翻译笔记3扩展e第1部分. Word2Vec原理及若干关于词向量的扩展知识Word2vec的参数学习连续词袋模型(CBOW)上下文仅有一个单词的情况隐藏层到输出层权重的更新输入层到隐藏层权重的更新上下文有多个单词的情况SkipGram模型优化计算效率分层softmax负采样Softmax的近似方法Softmax扩展法采样法ISNCENCE与其它采样法的关系如何生成好的词向量参考文献神...

2019-05-01 20:53:48 962

原创 神经翻译笔记3扩展d. 神经网络的泛化

文章目录神经翻译笔记3扩展d. 神经网络的泛化数据增强参数范数惩罚$L^2$正则化$L^1$正则化在TensorFlow中使用参数范数惩罚提前终止方法概览提前终止与$L^2$正则的关系集成方法集成方法概览参数平均Dropout原理实现与使用批归一化原理使用与实现进一步探索扩展权重归一化层归一化组归一化参考文献神经翻译笔记3扩展d. 神经网络的泛化机器学习模型的正则化是一个老生常谈的问题,毕竟模...

2019-04-18 12:25:48 677

原创 神经翻译笔记3扩展c. 神经网络的初始化

文章目录神经翻译笔记3扩展c. 神经网络的初始化基本初始化方法LeCun初始化Xavier初始化(Glorot初始化)何恺明初始化(He初始化)前向视角反向视角不要使用常数初始化小结参考文献神经翻译笔记3扩展c. 神经网络的初始化深度学习中,在具体网络结构之上,有三种应用广泛而且比较微妙的技术,分别是初始化,即如何恰当地初始化网络参数。不恰当的初始化方法甚至会使网络无法被训练,而好的初始化...

2019-04-17 16:43:03 466

原创 神经翻译笔记3扩展b. 自动微分

文章目录神经翻译笔记3扩展b. 自动微分引言自动微分不是什么自动微分不是数值微分自动微分不是符号微分自动微分及其主要模式前向模式(Forward mode)二元数后向模式(Backward mode)自动微分与机器学习基于梯度的优化神经网络、深度学习与可微分编程实现陷阱性能扰动混淆数值计算的陷阱近似问题实现方法TensorFlow的实现静态图模式梯度计算函数动态图模式神经翻译笔记3扩展b. 自动...

2019-04-16 09:43:48 890

原创 神经翻译笔记3扩展a. 深度学习的矩阵微积分基础

文章目录神经翻译笔记3扩展a. 深度学习的矩阵微积分基础预备知识矩阵微积分雅可比矩阵的泛化两向量间逐元素运算的导数向量与标量运算的导数向量的求和规约操作链式法则单变量链式法则单变量全微分链式法则向量的链式法则激活函数的梯度神经网络损失函数的梯度神经翻译笔记3扩展a. 深度学习的矩阵微积分基础写在前面:矩阵微积分是深度学习的数学基础之一,但是这部分内容在大学计算机系(及相关非数学类专业)本科几乎...

2019-04-15 16:41:50 460

原创 神经翻译笔记3. 神经网络语言模型与词向量

文章目录神经翻译笔记3. 神经网络语言模型与词向量神经网络一个示例结构从矩阵元素看如何计算梯度从矩阵微分看如何计算梯度激活函数自动微分神经网络语言模型经典词向量算法Word2Vec分层Softmax负采样频繁词的降采样GloVe词向量的评估词向量的陷阱与缺陷参考文献神经翻译笔记3. 神经网络语言模型与词向量本文主要参考了如下教程Koehn2017 : 第2、3节,第4节前半部分Neubi...

2019-04-14 17:26:24 880

原创 神经翻译笔记2扩展b. 优化方法

文章目录NMT Tutorial 2扩展b. 优化方法基本优化方法:梯度下降基于动量的梯度下降及其扩展动量法Nesterov动量法自适应学习率算法AdaGradAdaDeltaRMSPropAdam结语参考文献综述具体算法动量法Nesterov动量法AdaGrad算法AdaDelta算法Adam算法NMT Tutorial 2扩展b. 优化方法基本优化方法:梯度下降如正文所提,梯度下降是一般...

2019-04-13 18:50:50 467

原创 神经翻译笔记2扩展a. 损失函数

文章目录神经翻译笔记2扩展a. 损失函数针对回归问题的损失函数均方误差函数平均绝对值误差函数Huber loss关于回归问题的损失函数小结针对分类问题的损失函数交叉熵损失函数概述Softmax交叉熵损失函数Sigmoid交叉熵损失函数铰链损失函数(hinge loss)均方误差函数关于分类问题的损失函数小结神经翻译笔记2扩展a. 损失函数从最抽象的角度来讲,机器学习问题的求解过程就是提出一个损...

2019-04-12 16:22:29 1583

原创 神经翻译笔记2. Log-linear语言模型

文章目录神经翻译笔记2. Log-linear语言模型模型简介Softmax的计算问题模型示例学习模型参数损失函数使用随机梯度下降(SGD)进行优化损失函数对参数的偏导数神经翻译笔记2. Log-linear语言模型本章笔记基于[Neubig2017]第四章和NNMNLP第二章的一部分上一章提到的N元语法模型实际上就是基于计数和条件概率,而log-linear语言模型(或称对数-线性语言模型...

2019-04-11 12:01:17 1332

原创 神经翻译笔记1. 统计语言模型之N元语法

这里写自定义目录标题神经翻译笔记1. 统计语言模型之N元语法统计机器翻译问题的形式化定义逐词计算概率基于记数的n元语法语言模型的评估处理未知词N元语法的扩展神经翻译笔记1. 统计语言模型之N元语法本系列笔记主要来自于以下三篇关于神经机器翻译(NMT)的tutorial:[Koehn2017], Philipp Koehn, Statistical Machine Translation, ...

2019-04-11 00:06:16 551

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除