伟璇-CSDN博客

原创 BLEU计算

BLEU 就是用来衡量机器翻译文本与参考文本之间的相似程度的指标,取值范围在0-1, 取值越靠近1表示机器翻译结果越好。最初的BLEU最初的BLEU计算特别简单, 通常的讲, 当我们自己计算两个文本之间的相似程度的时候, 我们会考虑单词的频率, 最早的BLEU就是采用了这种思想, 计算方法是: 使用一个累加器表示candidate中的词在reference doc中出现的次数, 从can...

2019-05-06 10:52:21 2870

原创 BPE字节对编码

BPE的训练和解码范围都是一个词的范围。###BPE训练过程：首先将词分成一个一个的字符，然后在词的范围内统计字符对出现的次数，每次将次数最多的字符对保存起来，直到循环次数结束。###BPE编码解码过程，经过训练过程，会得到codec文件，codec文件中保存的就是训练过程的字符对，文件中最开始的是训练时最先保存的字符，即具有较高的优先级。解码是也是按在词的范围中进行编码的，首先将...

2019-05-06 09:57:06 2451

原创语言模型

统计语言模型语言模型就是用来计算一个句子的概率的模型，即P(W1,W2,...Wk)。利用语言模型，可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。给定句子（词语序列）S=W1,W2,...,Wk，它的概率可以表示为： (1)n-gram语言模型n-gram模型也称为n-1阶马尔科夫模型，它有一个有限历史假设：当前词的出现概率仅仅与前...

2019-05-01 22:31:42 1027

原创求一个字符串中连续出现次数最多的子串

例如字符串“abababc”,最多连续出现的为ab，连续出现三次。求一个字符串中连续出现的次数最多的子串，首先生成后缀数组例如上面的字符串为:abababcbababcababcbabcabcbcc可以看出第一个后缀数组和第三个后缀数组的起始都为ab，第5个后缀数组也为ab。可以看出规律来，一个子串s，如果第一次出现在后缀数组i的前面，那么如果它重复出现，下一次出现应该在第i+l...

2019-04-30 08:33:44 591

原创文本分类

文本分类问题：给定文档p（可能含有标题t），将文档分类为n个类别中的一个或多个文本分类应用：常见的有垃圾邮件识别，情感分析文本分类方向：主要有二分类，多分类，多标签分类文本分类方法：传统机器学习方法（贝叶斯，svm等），深度学习方法（fastText，TextCNN等）传统文本分类文本预处理文本预处理过程是在文本中提取关键词表示文本的过程，中文文本处理中主要包括文本...

2019-04-29 09:14:05 736

原创分词

词技术常见的有两大类：机械分词技术、基于统计的序列标注技术。机械分词技术操作简单、方便，比较省心，但是对于歧义词以及未登录词的效果并不是很好；统计模型的序列标注方法，对于识别未登录词拥有较好的识别能力，而且分词精度也比较大，同时这个方法可以不分中文、英语，着重看在语言前后顺序。https://blog.csdn.net/duozhishidai/article/details/89...

2019-04-28 20:53:29 297

原创句法分析（PCFG，Transition-based parsing）

句法分析的基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。　　句法分析分为句法结构分析（syntactic structure parsing）和依存关系分析(dependency parsing)。以获取整个句子的句法结构或者完全短语结构为目的的句法分析，被称为成分结构分析（constituent structure parsing）或者短语结构分析（phrase s...

2019-04-28 13:54:14 8028

原创语义分析（词义消歧，语义角色标注）

在词的层次上，语义分析的基本任务是进行词义消歧（WSD），在句子层面上是语义角色标注（SRL），在篇章层面上是指代消歧，也称共指消解。词义消歧（WSD）词义消歧有时也称为词义标注，其任务就是确定一个多义词在给定上下文语境中的具体含义。词义消歧的方法也分为有监督的消歧方法和无监督的消歧方法，在有监督的消歧方法中，训练数据是已知的，即每个词的词义是被标注了的；而在无监督的消歧方法中，训练数...

2019-04-28 12:38:50 4522

原创《Interactive Attention for NMT》和《Multi-channel Encoder for NMT》(受神经图灵机启发)

《Interactive Attention for Neural Machine Translation》(COLING 2016)与《Multi-channel Encoder for Neural Machine Translation》(AAAI 2018)类似，都是将神经图灵机与NTM结合在一起，通过“读写”机制不断地更新输入序列的隐藏层状态，完成翻译过程与输入序列的表示之间信息的交互。...

2019-03-21 10:22:05 584

原创《Decoding with Value Networks for NMT》《se2seq Learning as Beam-Search Optimization》（对beam-search的改进）

beam-search算法是一个动态规划的问题，在已获得了得分最高的候选语句的基础上，增加一个新的单词来扩展成为候选语句，然后保留由NMT模型评分最高的新候选语句，直到最大解码深度或者所有的语句都完全生成的时候（也就是所有语句都包含EOS符号的后缀），算法终止。《Decoding with Value Networks for Neural Machine Learning》（NIPS 201...

2019-03-21 10:21:55 568

原创《Phrase Table as Recommendation Memory for Neural Machine Translation》(IJCAI 2018)

问题：NMT通常产生流利的目标语句，但是却不忠于源语句（unfaithful）解决方法：使用一个短语表作为推荐记忆，为值得推荐的单词添加奖励步骤：首先通过源语句搜索短语翻译表来导出前缀树以容纳所有候选目标短语，然后再候选目标短语和先前翻译的目标单词之间进行匹配来构建推荐单词集，之后通过使用注意力向量和短语翻译概率来确定每个推荐单词的特定奖励值，最后把此奖励值整合到NMT中来改善翻译结果。...

2019-03-21 10:21:02 382

原创《Non-autoregressive Neural Machine Translation》（ICLR 2018）

问题：自回归：解码器具有自回归属性，生成每一个单词都依赖之前生成的单词，非并行的，速度慢解决方法：非自回归并行产生输出，在推断时候降低了一个数量级的延迟思路：首先理解和解释属于语句，同时预测一系列数字，然后通过直接复制输入文本来启动并行解码器，数字表示每个单词在输出语句中要求多少空间。自回归和非自回归对比：自回归计算公式：非自回归计算公式：，目标语句长度T由独立条件分布建模...

2019-03-21 10:20:53 2980

原创《Analyzing Uncertainty in Neural Machine Translation》（ICML 2018）

问题：内部不确定性：large beam search会导致性能下降，罕见词的低估和最终翻译缺乏多样性外部不确定性：单个源句的多个有效翻译的存在，嘈杂的训练数据思路：提出了工具和指标来评估模型分布如何捕获数据的不确定性以及它如何影响生成翻译的搜索策略任务本身固有的不确定性（intrinsic 不确定性）：同一个语句存在几个语义等价的翻译。即使字面上有很多表达相同含义的方法，翻译...

2019-03-21 10:20:47 372

原创《Neural Machine Translation with Key-Value Memory-Augmented Attention》（IJCAI 2018）

问题：重复翻译，漏译问题，传统基于注意力的NMT不能有效追踪注意力历史，导致decoder会忽略历史的注意力信息解决方法：一个及时更新的key-memory来跟踪注意力历史，一个固定的value-memory来存储翻译过程中源语句的表示。通过两个存储器之间的非平凡变换和迭代交互，解码器关注于更合适的源端单词，用于在每个解码步骤预测下一个目标单词，因此可以提高翻译的充分性。思路：首先利用d...

2019-03-21 10:20:36 469 1

原创《Neural Machine Translation for low-resource languages without parallel corpora》

问题：对于大量语言对存在完全没有并行数据的问题，并且可能严重损害机器翻译的质量解决方法：利用HRL（高资源语言）和LRL（低资源语言）之间的相似性，以便使用音译将HRL数据转换为类似于LRL的数据。音译模型是根据从维基百科文章标题中提取的音译对进行训练的。然后，我们使用音译HRL数据训练的模型自动反向翻译单语LRL数据，并使用生成的平行语料库来训练我们的最终模型。思路：通过使用音译模型将H...

2019-03-21 10:20:30 507

原创《Attention-via-Attention Neural Machine Translation》

背景：由于许多语言源于共同的祖先语言并且相互影响，因此这些语言之间不可避免地存在相似性，例如词汇相似性和命名实体相似性。思路：引入了一种注意力通过注意机制，它允许源侧角色的信息直接流向目标侧。利用这种机制，当单词相似时，将基于源端字母的表示生成目标端字母。从而避免了字典的使用。思路：首先字母级别的encoder处理源语句中的字母，根据语句中的空格，使用单词级别encoder处理源语句中的...

2019-03-21 10:20:14 328

原创《Training Deeper Neural Machine Translation Models with Transparent Attention》

背景：尽管深层模型很明显是一条康庄大道，但这方面的研究通常受限于计算能力的约束。此外，深层模型常常受到梯度消失或爆炸等训练问题的困扰。思路：提出了一种注意力机制的扩展，类似于创建沿着编码器深度的加权残差连接，这使得误差信号可以同时沿着编码器层和时间进行传播。使用可训练权重，这一「透明」注意力可使模型根据训练阶段灵活调节编码器中不同层的梯度流。之前的注意力计算都是只计算encoder的最后一层，...

2019-03-21 10:20:08 462 1

原创《Sparse and Constrained Attention for Neural Machine Translation》

背景：在NMT中，单词有时会从源中删除或在翻译中重复生成。思路：普通的注意力计算中，在得到每个时间步隐藏层状态的分数后，对其softmax归一化处理得到权重值。sparsemax：在源语句单词上的稀疏，计算时只考虑一些单词，其余单词的概率为0。constrained softmax：在时间步上的稀疏，返回一个接近sofrmax(z)的分布，注意力概率受限于上界值，本文将这两个稀疏结合在一起，产...

2019-03-21 10:20:03 523 1

原创《Attentive Language Models》

背景：语言模型LM通过将由每个预测步骤生成的信息整合到用于下一预测的上下文中来顺序地向前传播上下文向量。这种信息向前传播的一个后果是，当新信息被整合到上下文中时，旧信息往往会从上下文中消失，也就是无法处理长距离依赖。第二个问题是上下文可以由更新的信息支配，所以当RNN-LM确实出错时，这个错误可以向前传播，导致序列的其余部分出现级联错误。思路：在输出当前时刻的单词时，得到隐藏层状态后，通过计...

2019-03-21 10:19:57 179

原创《Document Context Neural Machine Translation with Memory Networks》

问题：基于文档水平的翻译。尽管神经机器翻译具有灵活性，但大多数神经机器翻译模型都是独立翻译，代词回指和词汇一致性等话语现象可能取决于比前几句更远的远程依赖，在基于句子的翻译中会被忽略。思路：翻译文本时，还是会翻译输出很多句子，每个时间步产生一个单词。在输出当前时刻的单词时，普通的神经机器翻译只考虑对应的源语句和之前的输出单词，这篇论文考虑了对应的源语句，之前输出的单词，其他的源语句和其他的目标...

2019-03-21 10:19:48 509

原创《Accelerating Neural Transformer via an Average Attention Network》

背景：tranformer非常吸引人，因为它有非常大的优势。首先它使用的是attention，这个机制是完全并行的，所以它的训练非常快。另外，attention这个机制计算的时候可以考虑整个句子级别的信息，通过给每一词分一个权重，可以捕捉长距离依赖、信息流的流动，所以它性能非常好。但是它也有劣势，在于它的解码端，目前transformer还是依赖于Beam search的解码方式。Beamsear...

2019-03-21 10:19:39 953

原创《Decoding-History-Based Adaptive Control of Attention for Neural Machine Translation》

神经机器翻译不考虑包括解码器中的过去信息和注意机制的解码历史的注意力，这样会经常引起很多重复翻译。思路：适应性注意力控制（ACA）学习通过用记忆向量跟踪解码历史和当前信息来控制注意力，以便模型可以考虑翻译的内容和当前信息。在原始模型上添加了一个记忆向量，利用解码器输出的历史信息和注意力机制的上下文向量，更新记忆向量，并将记忆向量用用计算隐藏层的输出中。该机制基于解码历史来控制注意力的输出，包括...

2019-03-21 10:19:34 199

原创《Neural Machine Translation with Decoding-History Enhanced Attention》

背景：普通的NMT没有考虑解码历史思路：解码时候考虑了解码历史，在源端和目标端同时使用注意力机制，之前只使用源端注意力机制，得到的上下文向量只与encoder隐藏层状态相关。这篇论文在目标端也添加了一个注意力机制，计算了decoder的上下文向量，也就是当前时刻隐藏层状态和前一层隐藏层状态之间的联系。然后提出三种方法将这两个上下文向量结合在一起作为最终上下文向量，用于计算当前层当前时刻的隐藏层...

2019-03-21 10:19:26 244

原创《Fine-Grained Attention Mechanism for Neural Machine Translation》

背景：之前的注意力机制是一个encoder的隐藏层状态对应一个分数，然后对所有所有隐藏层状态加权求和得到上下文向量。这篇论文中实现了每一个隐藏层状态对应和其维度一样多的注意力分数，使得每一个维度都拥有独立的注意力分数。普通的注意力计算：细粒度注意力机制：其中是时间步，d维第t个隐藏层状态的分数。是一个全连接神经网络，输出结点的数量为d...

2019-03-21 10:19:18 213

原创《Modeling Past and Future for Neural Machine Translation》（开源）

背景：现有的神经机器翻译系统没有明确地模拟已经翻译的内容以及在解码阶段期间没有翻译的内容。思路：将源信息分成两部分：翻译的PAST内容和未翻译的FUTURE内容，它们由两个额外循环层建模。 PAST和FUTURE内容被馈送到注意模型和解码器状态，这为神经机器翻译系统提供了翻译和未翻译内容的知识。Past层从头开始并累积在每个解码步正在翻译的信息，对应着源内容已经被翻译的部分Futu...

2019-03-21 10:19:12 397

原创《Self-Attentive Residual Decoder for Neural Machine Translation》

背景：普通的NMT模型是序列模型，缺少有效捕捉单词间非序列依赖的能力，不能捕捉语言的结构成分。在普通的NMT解码时，只使用前一时刻的隐藏层状态，前一时刻的输出单词和上下文向量，这样会导致decoder更偏向最近的历史。思路：本篇论文提出自注意残差解码，不再只使用前一时刻的输出单词，而是要考虑之前所有的输出历史单词，第一种方法是对所有的输出单词求平均值，第二种是相当于求一个目标端的上下文向量，对...

2019-03-21 10:19:05 220

原创《Modeling Coverage for Neural Machine Translation》（开源）

背景：NMT经常会忽略历史对齐信息，这样会导致过度翻译或者未翻译思路：使用一个覆盖向量来追踪注意力历史，这个覆盖向量可以帮助调整未来注意力，使得NMT更多的考虑未被翻译的源单词。提出了两个覆盖模型，一个是语言覆盖模型，充分利用语言信息，和解码无关，只与encoder的隐藏层状态相关。另一个是神经网络覆盖模型，使用GRU计算，涉及到encoder的隐藏层状态，decoder的隐藏层状态和注意力对...

2019-03-21 10:18:50 826

wwx123521的博客