AI之循环神经网络进阶

最新推荐文章于 2023-05-19 17:30:01 发布

zhangbin_0719

最新推荐文章于 2023-05-19 17:30:01 发布

阅读量274

点赞数

分类专栏：人工智能时代，你准备好了吗？文章标签：循环神经网络深度学习 lstm rnn 神经网络

本文链接：https://blog.csdn.net/zhangbin_0719/article/details/104526621

版权

人工智能时代，你准备好了吗？专栏收录该内容

14 篇文章 0 订阅

订阅专栏

AI之循环神经网络进阶

GRU
LSTM
深度循环神经网络
双向循环神经网络
例题

GRU

RNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）
门控循环神经网络：捕捉时间序列中时间步距离较⼤的依赖关系
RNN结构:
RNN

$H_t=ϕ(X_tW_{xh}+H_{t−1}W_{hh}+b_h)$

GRU结构:

$R_t=σ(X_tW_{xr}+H_{t−1}W_{hr}+b_r)$ $Z_t=σ(X_tW_{xz}+H_{t−1}W_{hz}+b_z)$ $\widetilde{H}_t=tanh(X_tW_{xh}+(R_t⊙H_{t−1})W_{hh}+b_h)$ $H_t=Z_t⊙H_{t−1}+(1−Z_t)⊙\widetilde{H}_t$
• 重置⻔有助于捕捉时间序列⾥短期的依赖关系；
• 更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。

从零实现GNU

载入数据集

import os
os.listdir('/home/kesci/input')

输出结果：
[‘d2lzh1981’, ‘houseprices2807’, ‘jaychou_lyrics4703’, ‘d2l_jay9460’]

import numpy as np
import torch
from torch import nn, optim
import torch.nn.functional as F
import sys
sys.path.append("../input/")
import d2l_jay9460 as d2l
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

(corpus_indices, char_to_idx, idx_to_char, vocab_size) = d2l.load_data_jay_lyrics()

初始化参数

num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size
print('will use', device)

def get_params():  
    def _one(shape):
        ts = torch.tensor(np.random.normal(0, 0.01, size=shape), device=device, dtype=torch.float32) #正态分布
        return torch.nn.Parameter(ts, requires_grad=True)
    def _three():
        return (_one((num_inputs, num_hiddens)),
                _one((num_hiddens, num_hiddens)),
                torch.nn.Parameter(torch.zeros(num_hiddens, device=device, dtype=torch.float32), requires_grad=True))
     
    W_xz, W_hz, b_z = _three()  # 更新门参数
    W_xr, W_hr, b_r = _three()  # 重置门参数
    W_xh, W_hh, b_h = _three()  # 候选隐藏状态参数
    
    # 输出层参数
    W_hq = _one((num_hiddens, num_outputs))
    b_q = torch.nn.Parameter(torch.zeros(num_outputs, device=device, dtype=torch.float32), requires_grad=True)
    return nn.ParameterList([W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q])

def init_gru_state(batch_size, num_hiddens, device):   #隐藏状态初始化
    return (torch.zeros((batch_size, num_hiddens), device=device), )

输出结果：
will use cpu

GRU模型

def gru(inputs, state, params):
    W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = params
    H, = state
    outputs = []
    for X in inputs:
        Z = torch.sigmoid(torch.matmul(X, W_xz) + torch.matmul(H, W_hz) + b_z)
        R = torch.sigmoid(torch.matmul(X, W_xr) + torch.matmul(H, W_hr) + b_r)
        H_tilda = torch.tanh(torch.matmul(X, W_xh) + R * torch.matmul(H, W_hh) + b_h)
        H = Z * H + (1 - Z) * H_tilda
        Y = torch.matmul(H, W_hq) + b_q
        outputs.append(Y)
    return outputs, (H,)

训练模型

num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 40, 50, ['分开', '不分开']
d2l.train_and_predict_rnn(gru, get_params, init_gru_state, num_hiddens,
                          vocab_size, device, corpus_indices, idx_to_char,
                          char_to_idx, False, num_epochs, num_steps, lr,
                          clipping_theta, batch_size, pred_period, pred_len,
                          prefixes)

输出结果：
epoch 40, perplexity 149.271885, time 1.17 sec
- 分开我想我不不我想你的让我你想我的让我你想我不想我想你我想想想想想你想你的可爱人坏我的让我
- 不分开我想你我不想你不我我想你的爱爱我想你的让我我想你我想想想想想想你的可爱人坏我的让我我
epoch 160, perplexity 1.427383, time 1.16 sec
- 分开我已带口你已已是不起让你知没面对我甩散球我满腔的怒火我想揍你已经很久别想躲说你眼睛看着
- 不分开整过是你开的玩笑想通却又再考倒我说散你想很久了吧? 败给你的黑色幽默说散你想很久了吧

简洁实现

num_hiddens=256
num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 40, 50, ['分开', '不分开']

lr = 1e-2 # 注意调整学习率
gru_layer = nn.GRU(input_size=vocab_size, hidden_size=num_hiddens)
model = d2l.RNNModel(gru_layer, vocab_size).to(device)
d2l.train_and_predict_rnn_pytorch(model, num_hiddens, vocab_size, device,
                                corpus_indices, idx_to_char, char_to_idx,
                                num_epochs, num_steps, lr, clipping_theta,
                                batch_size, pred_period, pred_len, prefixes)

输出结果：
epoch 40, perplexity 1.016101, time 0.89 sec
- 分开始想像爸和妈当年的模样说著一口吴侬软语的姑娘缓缓走过外滩消失的旧时光一九四三回头看的片
- 不分开暴风圈来不及逃我不能再想我不能再想我不我不我不能爱情走的太快就像龙卷风不能承受我已无处
epoch 80, perplexity 1.010881, time 0.96 sec
- 分开都会值得去做我想大声宣布对你依依不舍连隔壁邻居都猜到我现在的感受河边的风在吹着头发飘动牵
- 不分开暴风圈来不及逃我不能再想我不能再想我不我不我不能爱情走的太快就像龙卷风不能承受我已无处
epoch 120, perplexity 1.011403, time 0.95 sec
- 分开的我爱你看棒球想这样没担忧唱着歌一直走我想就这样牵着你的手不放开爱可不可以简简单单没有伤害
- 不分开暴风圈来不及逃我不能再想我不能再想我不我不我不能爱情走的太快就像龙卷风不能承受我已无处
epoch 160, perplexity 1.058085, time 0.88 sec
- 分开始打呼管到当初爱你的时空停格内容不忠所有回忆对着我进攻简单爱情来的太快就像龙卷风离不开
- 不分开始打呼管家是一只是我怕眼泪撑不住不懂你给我抬起头有话去对医药箱说别怪我别怪我说你怎么面

LSTM

长短期记忆long short-term memory :
遗忘门:控制上一时间步的记忆细胞
输入门:控制当前时间步的输入
输出门:控制从记忆细胞到隐藏状态
记忆细胞：⼀种特殊的隐藏状态的信息的流动
LSTM结构图
$I_t=σ(Xt_Wxi+H_{t−1}W_{hi}+b_i)$ $F_t=σ(X_tW_{xf}+H_{t−1}W_{hf}+b_f)$ $O_t=σ(X_tW_{xo}+H_{t−1}W_{ho}+b_o)$ $\widetilde{C}_t=tanh(X_tW{xc}+H_{t−1}W_{hc}+b_c)$ $C t = F t ⊙ C t - 1 + I t ⊙ C ˜ t$ $H t = O t ⊙ t a n h (C t)$

初始化参数

num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size
print('will use', device)

def get_params():
    def _one(shape):
        ts = torch.tensor(np.random.normal(0, 0.01, size=shape), device=device, dtype=torch.float32)
        return torch.nn.Parameter(ts, requires_grad=True)
    def _three():
        return (_one((num_inputs, num_hiddens)),
                _one((num_hiddens, num_hiddens)),
                torch.nn.Parameter(torch.zeros(num_hiddens, device=device, dtype=torch.float32), requires_grad=True))
    
    W_xi, W_hi, b_i = _three()  # 输入门参数
    W_xf, W_hf, b_f = _three()  # 遗忘门参数
    W_xo, W_ho, b_o = _three()  # 输出门参数
    W_xc, W_hc, b_c = _three()  # 候选记忆细胞参数
    
    # 输出层参数
    W_hq = _one((num_hiddens, num_outputs))
    b_q = torch.nn.Parameter(torch.zeros(num_outputs, device=device, dtype=torch.float32), requires_grad=True)
    return nn.ParameterList([W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c, W_hq, b_q])

def init_lstm_state(batch_size, num_hiddens, device):
    return (torch.zeros((batch_size, num_hiddens), device=device), 
            torch.zeros((batch_size, num_hiddens), device=device))

输出结果：
will use cpu

建立LSTM模型

def lstm(inputs, state, params):
    [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c, W_hq, b_q] = params
    (H, C) = state
    outputs = []
    for X in inputs:
        I = torch.sigmoid(torch.matmul(X, W_xi) + torch.matmul(H, W_hi) + b_i)
        F = torch.sigmoid(torch.matmul(X, W_xf) + torch.matmul(H, W_hf) + b_f)
        O = torch.sigmoid(torch.matmul(X, W_xo) + torch.matmul(H, W_ho) + b_o)
        C_tilda = torch.tanh(torch.matmul(X, W_xc) + torch.matmul(H, W_hc) + b_c)
        C = F * C + I * C_tilda
        H = O * C.tanh()
        Y = torch.matmul(H, W_hq) + b_q
        outputs.append(Y)
    return outputs, (H, C)

训练模型

num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 40, 50, ['分开', '不分开']

d2l.train_and_predict_rnn(lstm, get_params, init_lstm_state, num_hiddens,
                          vocab_size, device, corpus_indices, idx_to_char,
                          char_to_idx, False, num_epochs, num_steps, lr,
                          clipping_theta, batch_size, pred_period, pred_len,
                          prefixes)

输出结果：
epoch 40, perplexity 211.457328, time 1.51 sec
- 分开我不的我我不的我我不不我不的我我不不我不的我我不不我不的我我不不我不的我我不不
- 不分开我不不我不的我我不不我不的我我不不我不的我我不不我不的我我不不我不的我我不不
epoch 80, perplexity 68.458662, time 1.50 sec
- 分开我想你这你我不要这你我不要这你我不要这你我不要这你我不要这你我不要这你我不要这你我
- 不分开我想你你的你我想要你我不要我不要我不要我不要我不要我不要我不要我不要我不要我
epoch 120, perplexity 15.034657, time 1.49 sec
- 分开我想你你的你笑不知不觉你你了一我不我别发抖快给我抬起起着你别发抖快给我抬起头有你去对
- 不分开我想你你我不要再想我不知不觉你你了离不我不知不觉你跟了离不我不知不觉我该了这节活后
epoch 160, perplexity 3.897414, time 1.49 sec
- 分开我想带你里嵩山学少林跟了了刚我想就你了嵩着我想去这生嵩不天到双截棍哼哼哈兮快使用双截棍
- 不分开我我你你的微笑像通又又我我想就这样牵着你的手不放穿过来回单单我想和你样堡堡我想

简洁实现

num_hiddens=256
num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 40, 50, ['分开', '不分开']

lr = 1e-2 # 注意调整学习率
lstm_layer = nn.LSTM(input_size=vocab_size, hidden_size=num_hiddens)
model = d2l.RNNModel(lstm_layer, vocab_size)
d2l.train_and_predict_rnn_pytorch(model, num_hiddens, vocab_size, device,
                                corpus_indices, idx_to_char, char_to_idx,
                                num_epochs, num_steps, lr, clipping_theta,
                                batch_size, pred_period, pred_len, prefixes)

输出结果：
epoch 40, perplexity 1.019881, time 1.04 sec
- 分开始打呼管家是一只会说法语举止优雅的猪吸血前会念约翰福音做为弥补拥有一双蓝色眼睛的凯萨琳公主专
- 不分开的玩笑想通却又再考倒我说散你想很久了吧? 败给你的黑色幽默不想太多我想一定是我听错弄错搞
epoch 80, perplexity 1.013078, time 1.01 sec
- 分开的话像语言暴力我已无能为力再提起决定中断熟悉然后在这里不限日期然后将过去慢慢温习让我爱
- 不分开的玩笑想通却又再考倒我说散你想很久了吧? 败给你的黑色幽默说散你想很久了吧? 我的认真败
epoch 120, perplexity 1.010264, time 1.01 sec
- 分开我们儿子她人在江南等我泪不休语沉默一壶好酒再来一碗热粥配上几斤的牛肉我说店小二三两银
- 不分开我有你看棒球想这样没担忧唱着歌一直走我想就这样牵着你的手不放开爱可不可以简简单单没有伤害
epoch 160, perplexity 1.008950, time 1.02 sec
\ - 分开我才原来我只想要你陪我去吃汉堡说穿了其实我的愿望就怎么小就怎么每天祈祷我的心跳你知道
- 不分开我才你看我想要再这样打我妈妈我说的话你甘会听不要再这样打我妈妈难道你手不会痛吗其实我回

深度循环神经网络

抽取更高层，更抽象的信息。
深度循环神经网络结构图
$H^{(1)}_t=ϕ(X_tW^{(1)}x_h+H^{(1)}_{t−1}W^{(1)}_{hh}+b^{(1)}_h)$ $H^{(ℓ)}_t=ϕ(H^{(ℓ−1)}_tW^{(ℓ)}_{xh}+H^{(ℓ)}_{t−1}W^{(ℓ)}_{hh}+b^{(ℓ)}_h)$ $O_t=H^{(L)}_tW_{hq}+b_q$

num_hiddens=256
num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 40, 50, ['分开', '不分开']

lr = 1e-2 # 注意调整学习率

gru_layer = nn.LSTM(input_size=vocab_size, hidden_size=num_hiddens,num_layers=2)
model = d2l.RNNModel(gru_layer, vocab_size).to(device)
d2l.train_and_predict_rnn_pytorch(model, num_hiddens, vocab_size, device,
                                corpus_indices, idx_to_char, char_to_idx,
                                num_epochs, num_steps, lr, clipping_theta,
                                batch_size, pred_period, pred_len, prefixes)

输出结果：
epoch 40, perplexity 12.840496, time 1.52 sec
- 分开我想你的话我在想再你的让我女疼我想你我有要有想你你想你的让我女沉我想你你想你的让我女沉
- 不分开的经爱女人坏坏的让我疯狂的可爱女人坏坏的让我疯狂的可爱女人坏坏的让我疯狂的可爱女人坏坏的让我
epoch 80, perplexity 1.247634, time 1.52 sec
- 分开有一条热昏头的响尾蛇无力的躺在干枯的河在等待雨季来临变沼泽灰狼啃食著水鹿的骨头秃鹰盘旋死盯着
- 不分开的会手穿梭放受一朵一朵因你而香试图让夕阳飞翔带领你我环绕大自然迎著风开始共渡每一天手牵
epoch 120, perplexity 1.021974, time 1.56 sec
- 分开我妈妈我有多重要我后悔没让你知道安静的听你撒娇看你睡著一直到老就是开不了口让她知道就是那
- 不分开的会堡想要将我不投又不会掩护我选你这种队友瞎透了我说你说分数怎么停留一直在停留谁让
epoch 160, perplexity 1.016324, time 1.59 sec
- 分开在没有一个人身留旧时光一九四三在回忆的路上时间变好慢老街坊小弄堂是属于那年代白墙黑
- 不分开的我有有样的要再这样打我妈妈难道你手不会痛吗不要再这样打我妈妈难道你手不会痛吗不要再这样打

gru_layer = nn.LSTM(input_size=vocab_size, hidden_size=num_hiddens,num_layers=6)
model = d2l.RNNModel(gru_layer, vocab_size).to(device)
d2l.train_and_predict_rnn_pytorch(model, num_hiddens, vocab_size, device,
                                corpus_indices, idx_to_char, char_to_idx,
                                num_epochs, num_steps, lr, clipping_theta,
                                batch_size, pred_period, pred_len, prefixes)

输出结果：
epoch 40, perplexity 276.815235, time 8.50 sec
- 分开
- 不分开
epoch 80, perplexity 276.278550, time 8.51 sec
- 分开
- 不分开
epoch 120, perplexity 276.146710, time 8.53 sec
- 分开
- 不分开
epoch 160, perplexity 275.739864, time 9.04 sec
- 分开
- 不分开
可知，并非层数越多越好！

双向循环神经网络

根据从 $X_1\rightarrow X_T$ 得到 $\overrightarrow{H}_t$ ，根据从 $X_T\rightarrow X_1$ 得到 $\overleftarrow{H}_t$ ，concat连接 $(\overrightarrow{H}_{t+1},\overleftarrow{H}_{t+1})$ ,即考虑两个方向。
双向循环神经网络结构图
$\overrightarrow{H}_t=ϕ(X_tW^{(f)}_{xh}+\overrightarrow{H}_{t−1}W^{(f)}_{hh}+b^{(f)}_h)$ $\overrightarrow{H}_t=ϕ(X_tW^{(b)}x_h+\overleftarrow{H}_{t+1}W^{(b)}_{hh}+b^{(b)}_h)$ $H_{t}=(\overrightarrow{H}_{t+1},\overleftarrow{H}_{t+1})$ $O_t=H_tW_{hq}+b_q$

num_hiddens=128
num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e-2, 1e-2
pred_period, pred_len, prefixes = 40, 50, ['分开', '不分开']

lr = 1e-2 # 注意调整学习率

gru_layer = nn.GRU(input_size=vocab_size, hidden_size=num_hiddens,bidirectional=True)
model = d2l.RNNModel(gru_layer, vocab_size).to(device)
d2l.train_and_predict_rnn_pytorch(model, num_hiddens, vocab_size, device,
                               corpus_indices, idx_to_char, char_to_idx,
                               num_epochs, num_steps, lr, clipping_theta,
                               batch_size, pred_period, pred_len, prefixes)

输出结果：
epoch 40, perplexity 1.001741, time 0.91 sec
- 分开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开
- 不分开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开
epoch 80, perplexity 1.000520, time 0.91 sec
- 分开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开
- 不分开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开
epoch 120, perplexity 1.000255, time 0.99 sec
- 分开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开
- 不分开球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我\球我球我球我球我球我球我球我球我球我球我
epoch 160, perplexity 1.000151, time 0.92 sec
- 分开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开始开
- 不分开球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我球我

例题

1.LSTM单元中控制当前时间步输入的结构是？
1、遗忘门
2、输入门
3、输出门
4、记忆细胞
答案解释：
参考输入门的定义

2.实现深层循环神经网络需要修改的参数是？
1、input_size
2、hidden_size
3、bidirectional
4、num_layers

3.下列关于GRU说法正确的是？
1、GRU有遗忘门、更新门两种门控结构
2、GRU中重置门有助于捕捉时间序列里长期的依赖关系
3、GRU中更新门有助于捕捉时间序列里长期的依赖关系
4、GRU中遗忘门有助于捕捉时间序列里长期的依赖关系
答案解释：
GRU有重置门和更新门，没有遗忘门。重置门有助于捕捉时间序列里短期的依赖关系，更新门有助于捕捉时间序列⾥长期的依赖关系。参考视频1分20秒起关于GRU的原理讲解。

4.在LSTM模型的初始化中，下列不需要初始化的参数是？
1、每个循环单元中的记忆细胞和循环单元的值
2、第0个循环单元的记忆细胞和循环单元的值
3、门控单元中用于计算遗忘门的权重与偏差
4、用于计算输出的权重与偏差
答案解释：
每个循环单元中的记忆细胞和循环单元的值为LSTM模型中的隐状态，而非参数，因此不需要初始化。

5.下列关于RNN的说法错误的是？
1、GRU、LSTM都能捕捉时间序列中时间步距离较长的依赖关系。
2、双向循环神经网络在文本任务里能做到同时考虑上文和下文与当前词之间的依赖。
3、LSTM和GRU能一定程度缓解梯度消失与梯度爆炸的问题。
4、深层循环网络能有效抽取更高层更抽象的信息，层数越深效果越好。
答案解释
层数越深效果未必越好，层数的加深会导致模型的收敛变得困难。

6.双向循环神经网络前向和后向RNN连结的方式是
1、前向的output和后向的output用concat进行连结
2、前向的 $H_t$ 和后向的 $H_t$ 用concat进行连结
3、前向的output和后向的output按元素相加
4、前向的 $H_t$ 和后向的 $H_t$ 按元素相加

zhangbin_0719

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AI之循环神经网络进阶

AI之循环神经网络进阶GRURNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系RNN:Image NameHt=ϕ(XtWxh+Ht−1Whh+bh)GRU:Image NameRt=σ(XtWxr+Ht−1Whr+br)Zt=σ(XtWxz+Ht−1Whz+bz)H˜t=tanh(XtWxh+(Rt⊙Ht−1)Whh+...
复制链接

扫一扫