Tensorflow之RNN实战

RNN原理回顾
# 简单RNN原理回顾
h[t] = fw(h[t-1], x[t])	#fw is some function with parameters W
h[t] = tanh(W[h,h]*h[t-1] + W[x,h]*x[t])    #to be specific
y[t] = W[h,y]*h[t]
RNN实战情感分类
import os
import tensorflow as tf
import numpy as np
from tensorflow import keras
from tensorflow.keras import layers

tf.random.set_seed(22)
np.random.seed(22)
assert tf.__version__.startswith('2.')
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

batchsz = 128  # batch大小
total_words = 10000  # 词汇表大小
max_review_len = 80  # 每个句子的长度(多截少填)
embedding_len = 100  # embedding向量长度
(x_train, y_train), (x_test, y_test) = keras.datasets.imdb.load_data(num_words=total_words)

# x_train:[b, 80],x_test: [b, 80]
x_train = keras.preprocessing.sequence.pad_sequences(x_train, maxlen=max_review_len)
x_test = keras.preprocessing.sequence.pad_sequences(x_test, maxlen=max_review_len)

db_train = tf.data.Dataset.from_tensor_slices((x_train, y_train))
db_train = db_train.shuffle(1000).batch(batchsz, drop_remainder=True)  # 最后面的batch可能小于batch_size,把它drop掉
db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))
db_test = db_test.batch(batchsz, drop_remainder=True)


class MyRNN(keras.Model):
    def __init__(self, units):
        super(MyRNN, self).__init__()
        # [b, 80] => [b, 80, 100] , embedding operation
        self.embedding = layers.Embedding(total_words, embedding_len, input_length=max_review_len)

        # [b, 80, 100] , h_dim: 64
        self.rnn = keras.Sequential([
            layers.SimpleRNN(units, dropout=0.5, return_sequences=True, unroll=True),
            layers.SimpleRNN(units, dropout=0.5, unroll=True)   # unroll用来加速,return_sequences用来保存两层RNN间的连接参数
        ])

        # fc, [b, 80, 100] => [b, 64] => [b, 1]
        self.outlayer = layers.Dense(1)

    def call(self, inputs, training=None):
        # net(x) net(x, training=True) :train mode
        # net(x, training=False) :test mode

        # input : [b, 80]
        x = inputs
        # embedding: [b, 80] => [b, 80, 100]
        x = self.embedding(x)
        # x: [b, 80, 100] => [b, 64]
        x = self.rnn(x, training=training)
        # out: [b, 64] => [b, 1]
        x = self.outlayer(x)
        # p(y is pos|x)
        prob = tf.sigmoid(x)

        return prob


def main():
    units = 64  # RNN单元数量
    epochs = 10  # 训练次数

    model = MyRNN(units)
    model.compile(optimizer=keras.optimizers.Adam(0.001),
                  loss=tf.losses.BinaryCrossentropy(),
                  metrics=['accuracy'])
    model.fit(db_train, epochs=epochs, validation_data=db_test)  # training
    model.evaluate(db_test)  # test


if __name__ == '__main__':
    main()
梯度剪枝(防止梯度爆炸)
with tf.GradientTape() as tape:
    logits = model(x)
    loss = criteon(y, logits)
grads = tape.gradient(loss, model.trainable_variables)
grads = [tf.clip_by_norm(g,15) for g in grads]	# clip
optimizer.apply_gradients(zip(grads, model,trainable_variables))
LSTM(防止梯度爆炸)—原理

RNN原理图

有三个门:分别是遗忘门— f f f,输入门— i i i,输出门— o o o。对于输入输出变量: c t − 1 c_{t-1} ct1是输入的memory(新增的,为了解决梯度离散增强记忆能力), x t x_t xt是输入, h t − 1 h_{t-1} ht1是前一个时间单元的输出, c t c_{t} ct是传到下一个时间单元的memory。

  • 遗忘门: f t = σ ( W f × [ h t − 1 , x t ] + b f ) f_t = \sigma(W_f \times [h_{t-1},x_{t}]+b_f) ft=σ(Wf×[ht1,xt]+bf)
  • 输入门: i t = σ ( W i × [ h t − 1 , x t ] + b i ) i_t = \sigma(W_i \times [h_{t-1},x_{t}]+b_i) it=σ(Wi×[ht1,xt]+bi)
  • 输出门: o t = σ ( W o × [ h t − 1 , x t ] + b o ) o_t = \sigma(W_o \times [h_{t-1},x_{t}]+b_o) ot=σ(Wo×[ht1,xt]+bo)
  • 过滤输入: c t ~ = t a n h ( W c × [ h t − 1 , x t ] + b c ) \widetilde{c_t} = tanh(W_c \times [h_{t-1},x_{t}]+b_c) ct =tanh(Wc×[ht1,xt]+bc),得到的结果是过滤后的输入

那么,新的memory就等于 “遗忘门作用后保留的之前的memory” + “输入门作用后保留的新增的过滤后的输入”, 即 c t = f t × c t − 1 + i t × c t ~ c_t = f_t \times c_{t-1} + i_t \times \widetilde{c_t} ct=ft×ct1+it×ct 。而新的输出(h)等于输出门作用后保留的"经tanh处理过的新的memory",即 h t = o t × t a n h ( c t ) h_t = o_t \times tanh(c_t) ht=ot×tanh(ct)

LSTM实战

与上面RNN实现相同,只需要改变两行(layer行)

class MyLSTM(keras.Model):
    def __init__(self, units):
        super(MyLSTM, self).__init__()
        # [b, 80] => [b, 80, 100] , embedding operation
        self.embedding = layers.Embedding(total_words, embedding_len, input_length=max_review_len)

        # [b, 80, 100] , h_dim: 64
        self.lstm = keras.Sequential([
            layers.LSTM(units, dropout=0.5, return_sequences=True, unroll=True),
            layers.LSTM(units, dropout=0.5, unroll=True)   # unroll用来加速,return_sequences用来保存两层RNN间的连接参数
        ])

        # fc, [b, 80, 100] => [b, 64] => [b, 1]
        self.outlayer = layers.Dense(1)

    def call(self, inputs, training=None):
        # net(x) net(x, training=True) :train mode
        # net(x, training=False) :test mode

        # input : [b, 80]
        x = inputs
        # embedding: [b, 80] => [b, 80, 100]
        x = self.embedding(x)
        # x: [b, 80, 100] => [b, 64]
        x = self.lstm(x, training=training)
        # out: [b, 64] => [b, 1]
        x = self.outlayer(x)
        # p(y is pos|x)
        prob = tf.sigmoid(x)

        return prob
aining)
        # out: [b, 64] => [b, 1]
        x = self.outlayer(x)
        # p(y is pos|x)
        prob = tf.sigmoid(x)

        return prob
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
TensorFlow RNN 实战可以涉及许多方面,包括文本生成、情感分析、机器翻译等任务。这里我为您提供一个简单的示例,展示如何使用 TensorFlow 构建一个基本的 RNN 模型来进行文本生成。 首先,您需要导入所需的库: ```python import tensorflow as tf from tensorflow.keras.layers import Dense, Embedding, SimpleRNN from tensorflow.keras.models import Sequential ``` 接下来,您可以定义模型的结构: ```python vocab_size = 10000 # 词汇表大小 embedding_dim = 256 # 嵌入维度 hidden_units = 1024 # RNN 隐藏单元数量 model = Sequential() model.add(Embedding(vocab_size, embedding_dim, input_length=100)) model.add(SimpleRNN(hidden_units, return_sequences=True)) model.add(Dense(vocab_size, activation='softmax')) ``` 在这个例子中,我们使用了一个 Embedding 层将输入序列中的每个单词映射为一个稠密向量。然后,我们使用一个 SimpleRNN 层来建立 RNN 模型,并设置 return_sequences=True 以便在每个时间步返回输出。最后,我们添加了一个全连接层作为输出层,使用 softmax 激活函数来生成预测的下一个单词。 接下来,您需要编译模型并定义损失函数和优化器: ```python model.compile(loss='sparse_categorical_crossentropy', optimizer='adam') ``` 在这个例子中,我们使用了稀疏分类交叉熵作为损失函数,并使用 Adam 优化器进行模型训练。 最后,您可以使用训练数据来拟合模型并进行文本生成: ```python model.fit(train_data, train_labels, epochs=10, batch_size=32) ``` 在这个例子中,train_data 是输入的训练数据,train_labels 是对应的标签。您可以根据实际情况调整训练数据和标签的格式。 这只是一个简单的 TensorFlow RNN 实战示例,您可以根据具体任务和数据的特点进行更复杂的模型设计和调整。希望对您有所帮助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值