自然语言处理
文章平均质量分 94
总结nlp算法模型原理、代码实现
赵队
一个兴趣使然的非科班算法工程师
展开
-
transformer中的attention为什么scaled?
原文链接:transformer中的attention为什么scaled?——LinT的回答———————————————————————————————————————————————————————这个问题困扰良久,一直没研究清楚,只知道个大概,不知其所以然,这里专门开一篇总结一下。由于有人珠玉在前,写得极其精彩,所以直接转载了,以下为原文。谢邀。非常有意义的问题,我思考了好久,按照描述中的两个问题分点回答一下。1. 为什么比较大的输入会使得softmax的梯度变得很小?......转载 2021-04-03 11:35:04 · 393 阅读 · 0 评论 -
为什么LSTM可以缓解梯度消失?
参考资料:Why LSTMs Stop Your Gradients From Vanishing: A View from the Backwards PassRNN前言 早些时候写了一篇关于RNN/LSTM的博客,介绍了RNN、LSTM的基本原理,其中提到了RNN梯度消失的问题,借机引出了LSTM。当时的文章中只写到了LSTM可以缓解梯度消失,但没有写明原因,原因是当时太想当然了,没有仔细思考这个问题。由于那篇博文的阅读量很多,本着负责的态度,现在重新把这个问题翻出来好好解释一下。 本文原创 2021-03-11 01:38:03 · 11082 阅读 · 1 评论 -
深入理解transformer源码
参考资料:transformer原论文深入理解transformer及源码图解Transformer(完整版)The Annotated Transformer前言 本来今年(2020)七月份就想写这篇博客,因为毕业、工作入职等一系列事情一直拖到了现在(主要是因为懒)。transformer的实现不止一个源码,本文主要讲解哈佛大学利用torch实现的版本。相对更“高级”的C系源码,这个版本显得不是那么底层,但我们大多数人阅读源码的主要目的还是为了更多的理解这个算法的细节然后去更好的使用它。原创 2020-12-10 00:09:59 · 20104 阅读 · 52 评论 -
从零实现基于sequence2sequence的中英翻译模型(torch版)
前言初学torch,复现了一波官网的tutorial的聊天机器人,只不过把任务场景换成了中英翻译并且简化了一些步骤,力求做到对初学者友好,如果是初学nlp,那这个案例将是一个很好的入门案例。官网链接在此。这篇博客仅对代码做一个记录和简单的说明,不涉及算法的数学原理。阅读此博客需要的知识储备有:1、nlp中的基本概念,如word embedding2、sequence2sequence架构的...原创 2020-04-18 13:01:30 · 1376 阅读 · 1 评论 -
RNN
RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络。首先我们要明确什么是序列数据,摘取百度百科词条:时间序列数据是指在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义,当然这里也可以不是时间,比如文字序列,但总归序列数据有一个特点——后面的数据跟前面的数据有关系。 ...原创 2018-06-06 23:40:03 · 319376 阅读 · 102 评论