- 博客(6)
- 资源 (49)
- 问答 (1)
- 收藏
- 关注
原创 关于RNN相关模型-tensorflow源码理解
本文主要是对tensorflow中lstm模型中的c,h进行解析。rnn_cell_impl.py1.关于RNN模型在rnn_cell_impl.py的tensorflow源码中,关于RNN部分实现的类主要是BasicRNNCell, 首先在build函数中,定义了两个变量_kernel和_bias。 其中_num_untis表示RNN cell 的unt...
2018-08-23 21:03:32 30001
原创 关于transformer模型总结(源码)
本文主要是对transfermer模型的源码进行解析: transfermer主要结构是由encoder和decoder构成。其中,encoder是由embedding + positional_encoding作为输入,然后加一个dropout层,然后输入放到6个multihead_attention构成的结构中,每个multihead_attention后面跟一个feedforwar...
2018-08-21 19:19:41 11268 3
原创 grid lstm模型简介
理论介绍主要通过论文《Grid Long short-Term Memory》。 grid LSTM沿着任何或所有维度(包括网络深度)部署cell。 一个Grid LSTM网络的block有N个hidden vector h1, …, hN和N 个memory vectorm1,m2..作为输入,另外block的各个输出各不相同。 标准的lstm模型的计算公式如下: 源码介绍...
2018-08-21 18:26:39 3778 2
原创 Normalization Technique总结
1.相关介绍:神经网络在多个领域取得了非凡的成就,例如,语音识别,图像识别等。所以,训练神经网络是个重要的任务,gradient descent常被用来寻来拿神经网络。但在网络比较深时,gradient descent容易出现梯度消失或梯度爆炸等现象。因此,在使用SGD算法对神经网络进行优化时,需要小心的对模型超参数进行微调,例如学习速率,模型参数的初始化等。神经网络的训练过程是很复杂的,每层.........
2018-08-06 20:33:20 32828 10
原创 SRU介绍
1.背景介绍 RNN模型在机器翻译,语言模型,问答系统中取得了非凡的成就,由于RNN的结构,当前的层输入为前一层的输出,所有RNN比较适合时间序列问题,但也正是由于这种串行结构,限制了RNN模型的训练速度,与CNN相比,RNN并不能进行并行化处理。而SRU网络结构的提出就是为了解决这个问题,SRU(simple recurrent units)将大...
2018-08-03 19:52:14 16968
原创 tensorflow中关于BahdanauAttention以及LuongAttention实现细节
背景介绍在 TensorFlow 中,Attention 的相关实现代码是在 tensorflow/contrib/seq2seq/python/ops/attention_wrapper.py 文件中,这里面实现了两种 Attention 机制,分别是 BahdanauAttention 和 LuongAttention,其实现论文分别如下: Neural Machine Translat......
2018-08-03 19:38:54 8189 8
对于一个C++项目,怎么用VS打开,没有sln文件
2016-09-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人