4.7 LSTM文本分类实战

老张谋

已于 2023-08-06 18:02:17 修改

阅读量91

点赞数

分类专栏： AI--深度学习文章标签： lstm 人工智能深度学习

于 2023-07-29 17:48:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wgf5845201314/article/details/131940064

版权

深度学习同时被 2 个专栏收录

12 篇文章 2 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

AI--深度学习

26 篇文章 0 订阅

订阅专栏

文本数据处理基本流程

分为三个步骤：

第一步：分词或者分字：比如有一句话今天下午吃你，分词：今天下午吃你；分字：今天下午吃你；
第二步：ID替换：每个字或者词，分配对应的ID，比如天，今、上，下等的ID依次为0，1，2，3，4，5，6，7，.。此表称为语料表或语料库。，则今天下午吃你，用ID表示就是1，0，3，4，5，7
第三步：词嵌入：由于上面我们用ID表示不是很合适，很多词都是意义的，ID无法表达出来这种含义，需要做Embedding(词嵌入），词嵌入就是把每个字用了个向量表示，而这个向量一般都是大厂训练出来的。比如，索引0对应的字，对用一个300维向量，索引1对用一个300维向量，则“今天下午吃你”中每个字都替换成对应300向量.

以上不论是分词还是分字都不是由我们决定的，而是由我们的Embedding表决定，它若是把一字映射成300维向量，则做分字。若是把一个词映射成300维向量，则做分词。

输出是什么：

假设batch =64, max_len = 30, embedding_len = 300,则输出是64*30*300？但是文本长度有长有短，

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
4.7 LSTM文本分类实战

由于上面是双向的，输出特征则是双倍，双向的特征串联起来，所以下面代码的输入特征大小是：此全连接层，用于预测各自类别。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。