论文笔记
Xiao_yanling
这个作者很懒,什么都没留下…
展开
-
0429 SMT总结 Curriculum learning for MT
课程学习(Curriculum Learning)由Montreal大学的Bengio教授团队在2009年的ICML上提出,主要思想是模仿人类学习的特点,由简单到困难来学习课程(在机器学习里就是容易学习的样本和不容易学习的样本),这样容易使模型找到更好的局部最优,同时加快训练的速度。如何在将Curriculum learning用于MT?论文1:Dynamic Data Selection ...原创 2020-05-01 14:58:03 · 508 阅读 · 0 评论 -
AAAI 2020 阅读论文笔记
Towards Making the Most of BERT in Neural Machine Translation目的:如何更好的使用预训练模型?—>微调效果并不好;上一篇笔记中的方法将BERT embeddings作为encoder的初始化或者中间的嵌入比较适用于低资源的情况,在高资源情况下由于训练中的太多更新,会导致遗忘。方法:(1)Asymptotic Distilat...原创 2020-04-26 22:14:35 · 1151 阅读 · 0 评论 -
预训练模型增强机器翻译
预训练和微调,例如BERT,通过将知识从资源丰富的预训练任务转移到资源低/零资源的下游任务,在语言理解方面取得了巨大成功。然而,由于在神经机器翻译(NMT)中,由于双语任务的训练目标与单语预训练模型相差很大的问题,微调的改进相对较少。那么如何利用预训练模型来增强机器翻译呢?首先现有的方法大致可分为两类,第一类是更好地利用预训练模型,一类是设计新的预训练任务,主要是预训练Seq2Seq模型。IC...原创 2020-04-19 22:24:20 · 2319 阅读 · 0 评论 -
20200406-20200412 论文笔记
FastBERT- a Self-distilling BERT with Adaptive Inference TimeMotivation:保证效果的同时提升Bert的效率。样本有不同的难易程度,大模型一般在简单样本上出现过度计算的情况。self-distillation:不需要额外的预训练结构,teacher和student的输出基于同一个模型(backbone)其中,speed是...原创 2020-04-12 23:09:42 · 639 阅读 · 0 评论 -
20200323-20200329 阅读论文笔记
INMT: Interactive Neural Machine Translation Prediction交互式机器翻译界面,为翻译人员提供即时的提示和建议。方法:字符级别的搜索,带约束的beam search+基于距离的编辑算法对beam重排序。一边翻一边根据上下文给建议。我们的是翻完了进行修改。用键盘作为交互方式。An Interactive Machine Translati...原创 2020-03-29 20:26:18 · 530 阅读 · 0 评论 -
20200302-20200308 阅读论文笔记
Cross-Lingual Natural Language Generation via Pre-Training问题:语言模型训练需要大规模训练数据,限制了在资源较少的语言上的应用------>跨语言预训练,通过微调将单语言NLG监督转移到其他经过预先训练的语言。跨语言生成:(1)要求模型理解多语言输入文本,并生成多语言目标序列。(2)语言对与语言数量的平方成正比。(3)预测空间大。...原创 2020-03-08 20:45:37 · 298 阅读 · 0 评论 -
20200224-20200301 阅读论文
Compressive transformer for long-range sequence modelling问题:Transformer关注每一个时间步的computation cost以及保存大量记忆的storage cost。---->以TransformerXL(扔掉比较旧的记忆)为基点,将旧记忆进行压缩。方法:几个难理解的点:(1)额外设计的cost:attentio...原创 2020-03-01 18:28:09 · 529 阅读 · 1 评论 -
20200217-20200223阅读论文笔记
On the Discrepancy between Density Estimation and Sequence Generation问题:探究训练目标(log-likelihood)和实际文本生成评价指标(Bleu)之间的相关性关系。背景知识总结:资料:https://www.leiphone.com/news/201911/FQ1HdiHYBcr5EX7z.htmlAutoregr...原创 2020-02-23 22:30:55 · 1057 阅读 · 1 评论 -
20200209-20200216 阅读论文
1. Editable neural networks问题:如何在不改变其他samples的结果的情况下,修正已训练好的模型对某些特殊sample的错误结果。以往方式:(1)修改数据重训模型—》代价大(2)人工cache,重定相关sample的规则。—》对微小的差异不够鲁棒。论文提出的方法:实验及结果:只看论文在ML上的实验部分Edit function 优化tansformer...原创 2020-02-16 22:13:25 · 364 阅读 · 0 评论 -
论文笔记:Self-Regulated Interactive Sequence-to-Sequence Learning
Motivation1.主动强化学习的核心问题是量化reward information的长期价值,但一般假定了每一轮的每个动作的cost是固定的。2.即使有工作考虑了cost应该要变化,他们也没有考虑多种的feedback形式。Methodself-regulated interactive learningself-regulation的任务是最优的平衡human effort和ou...原创 2019-10-27 22:12:23 · 244 阅读 · 0 评论 -
论文笔记:Towards Linear Time Neural Machine Translation with Capsule Networks
Motivation1.传统的Enc-Dec模型,没有保留source sequence resolution(一种加深对长句子学习的特征)。2.带注意力的Enc-Dec模型,保留了源句的resolution,不需要把所有信息压缩 到一个固定的表示,但计算复杂度由∣S∣+∣T∣|S|+|T|∣S∣+∣T∣到了∣S∣×∣T∣|S|\times|T|∣S∣×∣T∣,当句子长度上涨,模型复杂度会上升...原创 2019-10-20 23:24:41 · 293 阅读 · 0 评论 -
论文笔记:Bridging the Gap between Training and Inference for Neural Machine Translation
Motivation1.训练过程中基于ground truth进行预测,但推理过程中,整个句子都由模型生成,predicted words被fed到模型,可能会造成错误积累。2.过度纠正问题。Methodoracle word: 预测词中的ground truth(要自己选出来)yj−1oracle与yj−1∗y^{oracle}_{j-1}与y^*_{j-1}yj−1oracle与y...原创 2019-10-20 22:55:54 · 708 阅读 · 0 评论 -
论文学习笔记03(Sequence to Sequence Learning with Neural Networks)
Sequence to Sequence Learning with Neural Networks1.模型2.模型优点,克服了什么局限(1)DNNs适用于输入和输出的向量的维度已经固定的问题,但sequence2sequence的翻译,输入和输出的句子的长度是不一定的。论文提出的模型克服了这个局限性(通过input->vector->output的形式)(2)LSTM很适...原创 2019-04-14 21:30:00 · 347 阅读 · 0 评论 -
论文学习笔记05(Effective Approaches to Attention-based Neural Machine Translation)
Effective Approaches to Attention-based Neural Machine Translation原创 2019-04-28 21:24:38 · 276 阅读 · 0 评论 -
论文笔记09 Google's Neural Machine Translation System:Bridging the Gap Between Human and ML
Google’s Neural Machine Translation System:Bridging the Gap Between Human and Machine Translation原创 2019-05-19 21:51:31 · 1921 阅读 · 0 评论 -
论文学习笔记08:IMT
基础知识总结(1)机器翻译技术背景:基于词的翻译模型->基于短语的翻译模型->基于句法的翻译模型->神经网络翻译模型。(2)译后编辑:通过人工直接修改机器翻译的自动译文来完成翻译。译后编辑是最简单的人机交互方式。优点:如果机器翻译的自动译文质量较高,人工修改量就比较少,这种方式可以有效提升译员的生产效率。缺点:当前的机器翻译系统对应的译文质量远未达到人工翻译场景的用户期...原创 2019-05-13 08:40:04 · 423 阅读 · 0 评论 -
论文学习(翁荣祥毕业论文)
1.存在的问题:双语数据的规模与神经网络的参数规模的不平衡,导致现有的神经机器翻译模型生成的向量表示无法包含有足够语言信息。2.基于规则的翻译方式->统计机器翻译(步骤如https://www.cnblogs.com/wuseguang/p/4072920.html1.语料预处理,生成双语分词之后的文件。2.词对齐。3.短语抽取。4.计算短语概率。5.最大熵调序。)->神经机器翻译...原创 2019-06-10 10:33:39 · 394 阅读 · 0 评论 -
论文笔记:A Convolutional Encoder Model for Neural Machine Transltion
提出了一个基于卷积层的模型,原创 2019-06-16 22:16:34 · 629 阅读 · 1 评论 -
Transformer:论文《Attention is all you need》+李宏毅课程
TransformerSeq2seq model with Self-attention在RNN中虽然用到了输入序列的全部信息,但是很难实现输入序列词的同时训练,在self-attention layer中,目标序列b1,b2,...,bib_1,b_2,...,b_ib1,b2,...,bi中每一个都是基于全部输入序列而得到的,并且它们都是同时训练的。Transformer结构:...原创 2019-07-02 18:16:09 · 583 阅读 · 0 评论 -
论文学习笔记04(Neural Machine Translation By Jointly Learning To Align and Translate)
Neural Machine Translation By Jointly Learning To Align and Translate解决的问题(Motivation)传统的Encoder-Decoder模型必须由Encoder把源句编码为一个固定长度的vector,对于提高模型的性能是一个瓶颈。由于Encoder需要能够把源句表示的所有信息包含在转化的vector中,所以难以处理很长的...原创 2019-04-21 20:10:10 · 244 阅读 · 0 评论