本文转载自:https://www.jianshu.com/p/1a4f7f5b05ae
致谢以及参考
最近在做序列化标注项目,试着理解rnn的设计结构以及tensorflow中的具体实现方法。在知乎中找到这篇文章,具有很大的帮助作用,感谢作者为分享知识做出的努力。
学习目标定位
我主要重点在于理解文中连接所提供的在github上的project代码,一句句理解数据的预处理过程以及rnn网络搭建过程(重点在于代码注释,代码改动很小,实用python3)。(进入下面环节之前,假设你已经阅读了知乎上的关于rnn知识讲解篇幅,project的readme文档)
数据预处理
- 理解模型大概需要的重要参数:/Char-RNN-TensorFlow-master/train.py
# encoding: utf-8
import tensorflow as tf
from model import CharRNN import os import codecs # 相比自带的open函数 读取写入进行自我转码 from read_utils import TextConverter, batch_generator FLAGS = tf.flags.FLAGS # 变量定义 以及 默认值 tf.flags.DEFINE_string('name', 'default', 'name of the model') tf.flags.DEFINE_integer('num_seqs', 100, 'number of seqs in one batch') # 一个 batch 可以组成num_seqs个输入信号序列 tf.flags.DEFINE_integer('num_steps', 100, 'length of one seq') # 一个输入信号序列的长度, rnn网络会更具输入进行自动调整 tf.flags.DEFINE_integer('lstm_size', 128, 'size of hidden state of lstm') # 隐藏层节点数量,即lstm 的 cell中state数量 tf.flags.DEFINE_integer('num_layers', 2, 'number of lstm layers') # rnn的深度 tf.flags.DEFINE_boolean('use_embedding', False, 'whether to use embedding') # 如果中文字符则需要一个word2vec, 字母字符直接采用onehot编码 tf.flags.DEFINE_integer('embedding_size', 128, 'size of embedding') # 使用word2vec的 中文字符的嵌入维度选取 tf.flags.DEFINE_float('learning_rate', 0.001, 'learning_rate') tf.flags.DEFINE_float('train_keep_prob', 0.5, 'dropout rate during training') tf.flags.DEFINE_string('input_file', '', 'utf8 encoded text file') # --input_file data/shakespeare.txt tf.flags.DEFINE_integer('max_steps', 100000, 'max steps to train') tf.flags.DEFINE_integer('save_every_n', 1000, 'save the model every n steps') tf.flags.DEFINE_integer('log_every_n', 10, 'log to the screen every n steps') # 不同于英文字符比较短几十个就能解决,中文字符比较多,word2vec层之前输入需要进行onehot编码,根据字符频数降序排列取前面的3500个编码 tf.flags.DEFINE_integer('max_vocab', 3500, 'max char number')
- 理解main函数中数据预处理部分, 数据预处理主要采用TextConverter类
def main(_):
model_path = os.path.join('model', FLAGS.name) print("模型保存位置(根据模型命名)", model_path) if os.path.exists(model_path) is False: os.makedirs(model_path) with codecs.open(FLAGS.input_file, encoding='utf-8') as f: print("建模训练数据来源:", FLAGS.input_file) text = f.read() converter = TextConverter(text, # string # 返回一个整理文本词典的类 FLAGS.max_vocab) print("构建该文本的字符集合数量(包含未登录词:):", converter.vocab_size) print("建模所用字符保存地址位置(list): ", os.path.join(model_path, 'converter.pkl')) # 用来建模词汇的 前max_vocab个 converter.save_to_file(os.path.join(model_path, 'converter.pkl')) arr = converter.text_to_arr(text) # batch生成函数:返回一个生成器
- TextConverter类:\Char-RNN-TensorFlow-master\read_utils.py
比如 莎士比亚训练数据用vocab组成:{v} {'} {[} {t} {u} {R} {W} {x} {?} { } {F} {I} {G} {O} {E} {$} {y} {e} {:} {L} {s} {c} {g} {Y} {]} {h} {w} {-} {a} {S} {J} {q} {V} {3} {X} {p} {T} {!} {C} {n} {;} {r} {M} {j} {f} {U} {d} {Q} {K} {b} {m} {H} {Z} {o} {i} {P} {D} {.} {l} {&} {N} {z} {A} {,} {
} {B} {k}
class TextConvert