Artificial Neural Networks
终极香蕉大菠萝
学习中
展开
-
transformer---李宏毅
什么是transformer?对于seq2seq模型,我们常用的是RNN,但我们所使用的RNN是按照时间步去计算的,缺少并行性,当我们的训练集很庞大时,我们的训练时间要很久,而李宏毅老师在视频里讲到,有人提出用CNN去替代RNN,如下图,左图为双向RNN,而右图为CNN去训练序列 所以有人提出了,用CNN来替代RNN。 图中每一个三角形代表一个filter。 但是CNN只能考虑有限的信息,比如...原创 2020-04-13 01:33:48 · 434 阅读 · 1 评论 -
tensorflow实现简单encode-decode-attention
#创建编码层 ''' rnn_size : rnn size sequence_length : sequence length num_layers: create layer div rnn_inputs: input data keep_prob: save ratio ''' def encoding_layer(rnn_size, sequence_length, num_layers,...原创 2020-04-11 03:21:51 · 912 阅读 · 0 评论 -
Beam-search
Beam search搜索策略是贪心策略和穷举策略的一个折中方案,它在预测的每一步,都保留Top-k高概率的词,作为下一个时间步的输入。k称为beam size,k越大,得到更好结果的可能性更大,但计算消耗也越大。请注意,这里的Top-k高概率不仅仅指当前时刻的ytyt的最高概率,而是截止目前这条路径上的累计概率之和,如下图的公式所示。举例如下,假设k=2k=2,第一个时间步保留Top-2的词为"...转载 2020-04-09 14:27:49 · 1101 阅读 · 0 评论 -
Attention注意力机制
深入理解Attention机制 要了解深度学习中的注意力模型,就不得不先谈Encoder-Decoder框架,因为目前大多数注意力模型附着在Encoder-Decoder框架下,当然,其实注意力模型可以看作一种通用的思想,本身并不依赖于特定框架,这点需要注意。 Encoder-Decoder框架可以看作是一种深度学习领域的研究模式,应用场景异常广泛。图2是文本处理领域里常用的Encoder-Dec...转载 2020-04-06 17:45:17 · 409 阅读 · 0 评论 -
Seq2Seq原理2
seq2seq的NMT(神经网络翻译)如下图所示,它由两个RNN组成,左边的红色部分称为Encoder RNN,它负责对源语言进行编码(Encode);右边的绿色部分称为Decoder RNN,它负责对目标语言进行解码(Decode)。首先,Encoder RNN可以是任意一个RNN,比如朴素RNN、LSTM或者GRU。Encoder RNN负责对源语言进行编码,学习源语言的隐含特征。Encode...转载 2020-04-05 11:02:40 · 326 阅读 · 0 评论 -
Seq2Seq--原理
seq to seq Seq2Seq 模型顾名思义,输入一个序列,用一个 RNN (Encoder)编码成一个向量 u,再用另一个 RNN (Decoder)解码成一个序列输出,且输出序列的长度是可变的。用途很广,机器翻译,自动摘要,对话系统,只要是序列对序列的问题都能来搞。 seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder ...转载 2020-04-05 10:19:34 · 769 阅读 · 0 评论 -
BILSTM实现MNIST数据集学习
from __future__ import print_function import tensorflow as tf from tensorflow.contrib import rnn import numpy as np # Import MNIST data from tensorflow.examples.tutorials.mnist import input_data mnis...原创 2020-04-04 21:12:51 · 369 阅读 · 1 评论 -
DAY3——LSTM
Long Short Term Memory networks(以下简称LSTMs),一种特殊的RNN网络,长序列,该网络设计出来是为了解决长依赖问题。该网络由 Hochreiter & Schmidhuber (1997)引入,并有许多人对其进行了改进和普及。他们的工作被用来解决了各种各样的问题,直到目前还被广泛应用。 细胞状态,传输训练数据的主通道。 让我们回到语言模型的例子中来基于...转载 2020-03-29 21:48:48 · 199 阅读 · 0 评论 -
DAY3--RNN神经网络学习笔记
单层RNN创建 import tensorflow as tf import numpy as np cell = tf.nn.rnn_cell.BasicRNNCell(num_units=128) # state_size = 128 print(cell.state_size) # 128 inputs = tf.placeholder(np.float32, shape=(32, 10...转载 2020-03-29 17:50:14 · 199 阅读 · 0 评论 -
DAY2--RNN神经网络学习笔记
全连接神经网络和卷积神经网络,他们都只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。比如,当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列;当我们处理视频的时候,我们也不能只单独的去分析每一帧,而要分析这些帧连接起来的整个序列。这时,就需要用到深度学...转载 2020-03-29 09:28:14 · 267 阅读 · 0 评论 -
DAY1——Tensorflow——CNN——MINIST
import tensorflow as tf import numpy as np from tensorflow.examples.tutorials.mnist import input_data minist = input_data.read_data_sets("MINIST_data/",one_hot=True) #读出MINIST数据集 sess = tf.Interactive...转载 2020-03-27 16:49:49 · 901 阅读 · 0 评论