语言模型中ptb数据集处理方法 讲解darts中rnn部分数据处理方法解读
为了将文本转化为模型可以读入的单词序列,需要将这10000个不同的词汇分别映射到0~9999之间的整数编号。下面的辅助程序首先按照词频顺序为每个词汇分配一个编号,然后将词汇表保存到一个独立的vocab文件中。数据集共包含了9998个不同的单词词汇,加上稀有词语的特殊符号 和语句结束标记符在内,一共是10000个词汇。数据的下载地址:http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz。以下是文件rnn/data.py中的代码。
原创
2023-07-06 21:26:06 ·
1030 阅读 ·
0 评论