R语言学习之自然语言产生

最新推荐文章于 2023-07-05 10:10:24 发布

wenxing_1992

最新推荐文章于 2023-07-05 10:10:24 发布

阅读量271

点赞数

分类专栏：机器学习文章标签： R LSTM 自然语言 Keras

本文链接：https://blog.csdn.net/weixin_43858148/article/details/87170642

版权

R语言学习之自然语言产生

己亥第一篇。本文主要介绍利用LSTM（Long Short Term Memory）神经网络来产生自然语言。使用R语言和keras包来完成工作。
主要步骤有：
1，将全部数据分成不同的训练短语和目标字符（即短语的下一个字符）
2，将训练短语和目标字符向量化
3，构建神经网络模型
4，训练模型
5，模型对一个随机输入的短语进行预测并产生其目标字符
6，用产生的字符更新5中的输入短语，然后重新预测下一个字符。如此循环直到产生字符个数满足要求。

以下为具体实现代码：

library(keras)
library(stringr)
#path <- get_file("D:/Play/R/DeepLearningWithR/Generator/nietzsche.txt",
#                 origin = "https://s3.amazonaws.com/textdatasets/nietzsche.txt")
path <- "D:/Play/R/DeepLearningWithR/Generator/nietzsche.txt" #使用尼采的诗作为训练数据
text <- tolower(readChar(path, file.info(path)$size, useBytes = TRUE)) #将字母都转为小写
cat("Corpus length: ", nchar(text), "\n")
max_len <- 20 #一次读入字符个数
step <- 10 #读入字符间隔
text_indexes <- seq(1, nchar(text) - max_len, by = step) #得到每次读入起始位置
sentences <- str_sub(text, text_indexes, text_indexes + max_len - 1) #得到所有短语
next_char <- str_sub(text, text_indexes + max_len, text_indexes + max_len) #得到每个短语的下一个字符
cat("Number of sentences: ", length(sentences), "\n")
chars <- unique(sort(strsplit(text, "")[[1]])) #得到所有不同的字符
cat

最低0.47元/天解锁文章

wenxing_1992

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
R语言学习之自然语言产生

R语言学习之自然语言产生己亥第一篇。本文主要介绍利用LSTM（Long Short Term Memory）神经网络来产生自然语言。使用R语言和keras包来完成工作。主要步骤有：1，将全部数据分成不同的训练短语和目标字符（即短语的下一个字符）2，将训练短语和目标字符向量化3，构建神经网络模型4，训练模型5，模型对一个随机输入的短语进行预测并产生其目标字符6，用产生的字符更新5...
复制链接

扫一扫