一点思考:RNN中为什么要将每次采样的小批量数据形状由(批量大小, 时间步数)转置成(时间步数, 批量大小)

    上图是一个具体的例子,其中batch_size=2,t=5,vocab=28。第二行代码将(2,5)的二阶张量先打个转置(T),然后再用独热函数将X.T变为三阶张量,即(时间步数, 批量大小, 词表大小),那么为什么要这么做呢?

    下面是我的一点理解,作为抛砖引玉:假如不做T转置,进行独热后的三阶张量是( 批量大小, 时间步数,词表大小),当将其作为input输入网络时,由于RNN的时序特性(不做赘述),必须按照步数从0依次到4,也就是5个时间步。给一个不转置例子:

    像上图那样取数首先不符合人的思维习惯,并且方便编写程序,从第一个时间步开始到第五个时间步逐次抽取后面两维度的二阶张量。而且数据在内存中大多是行优先存储,对数据的取数速度会比转置后的慢一些。欢迎指正补充~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值