词嵌入下标越界问题

最新推荐文章于 2022-04-13 15:31:14 发布

成电摸鱼郎

最新推荐文章于 2022-04-13 15:31:14 发布

阅读量1.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wslhynn277/article/details/102790056

版权

在创建字典并进行词嵌入时，如果使用enumerate方式在词汇量小且存在单词重复的情况下构建词表，可能导致单词value值超过词表长度，引发下标越界错误。解决方案是确保value值不超过词表大小，避免单词重复导致的value值增大。

摘要由CSDN通过智能技术生成

我们在创建字典时，字典(word2id)通常的格式都是{word:value}，我们自己构造的字典或是torchtext这样的库构建的字典中，整个字典会按照value的顺序来排列，比如说为“小红是摸鱼郎”这个句子创建字典，那么情况是：

[0] 小红
[1] 是
[2] 摸鱼郎

而当我们词嵌入的时候，会创建一个[vocab_size,embedding_dim]的矩阵，其中vocab_size就是字典的长度，而在词嵌入之中，会照着每个单词的value值来在这个词向量矩阵中进行索引，所以这就代表着单词的value值是不能超过词表的长度的。
否则就会报如下的错误：

RuntimeError: index out of range: Tried to access index 9 out of table with 5 rows.

新手常见的操作错误就是在原生数据量不大的情况下，采用enumerate的方式来建立字典（词表），这是绝对错误的，因为如果词汇量较少，而单词又在下文中重复出现，就会导致上述的value值大于vocabsize的情况，看一个范例：

import jieba

sentences = ["小红喜欢毛球"

最低0.47元/天解锁文章

成电摸鱼郎

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

成电摸鱼郎 CSDN认证博客专家 CSDN认证企业博客

码龄8年

9: 原创

29万+: 周排名

144万+: 总排名

2万+: 访问

: 等级

343: 积分

1: 粉丝

23: 获赞

7: 评论

22: 收藏

私信

关注

热门文章

最新评论

CUDA error: device-side assert trigger
nishimiyashioko: 感谢博主，我也是这个问题呜呜呜，太感谢了
Bool value of Tensor with more than one value is ambiguous
成电摸鱼郎: 哈哈哈哈哈哈哈不好意思,这些博文本来是写给我自己看的.如果使用tensor变量来进行if条件判断的话,一共有两种情况:第一种情况是进行真假判断,第二种情况是进行非空判断.对于第一种情况,if条件语句写成“ if tensor:" ,在这种情况下,不论tensor的形状维度如何,tensor中只能含有一个值,这个值如果是布尔变量,那么就按照布尔变量的真假进行判断,如果是其他类型的值,那么这个判定将恒为真;对于第二种情况, if条件语句应该写成“ if tensor is not None”, 这个时候tensor内的值的个数任意,类型任意,维度任意,只要这个tensor不是None,都会判断为真. 上面是我的理解,最后,给国产垃圾技术博文添砖加瓦是我的不对,抱歉哈哈哈哈哈哈哈
Bool value of Tensor with more than one value is ambiguous
guanyonglai: 我也不知道说的什么鬼，但是我这么改他就行了
Bool value of Tensor with more than one value is ambiguous
weixin_38677127: 说的都是什么鬼
CUDA error: device-side assert trigger
qq_42222051: 感谢博主，正愁找不到报错位置

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。