BUG-Expected more than 1 value per channel when training, got input size torch.Size([1, xxx, 1, 1])

Attention is all you

已于 2023-12-08 17:38:17 修改

阅读量609

点赞数 10

分类专栏：深度学习杂谈 Linux-Ubuntu报错/问题集锦文章标签： bug

于 2023-12-08 17:27:50 首次发布

本文链接：https://blog.csdn.net/zwhdldz/article/details/134883289

版权

深度学习杂谈同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

Linux-Ubuntu报错/问题集锦

7 篇文章 0 订阅

订阅专栏

本专栏为深度学习的一些技巧,方法和实验测试,偏向于实际应用,后续不断更新,感兴趣童鞋可关,方便后续推送

现象

在训练深度学习模型时，保错如下:

line 2404, in _verify_batch_size
    raise ValueError("Expected more than 1 value per channel when training, got input size {}".format(size))

分析

网上一般解释为batch中恰好只含一个sample
显然这个解释不合理:

有过模型训练经验的人,都知道batch_size为1的bn层肯定是可以训练,不然这个设计也太愚蠢了
报错明明说的是每一个通道要求超过1个值
关于bn的简介可以参考我的另外一篇
接下来,我来查一下问题根源.通过PYCharm的Debug可以定位到

def _verify_batch_size(size: List[int]) -> None:
    # XXX: JIT script does not support the reduce from functools, and mul op is a
    # builtin, which cannot be used as a value to a func yet, so rewrite this size
    # check to a simple equivalent for loop
    #
    # TODO: make use of reduce like below when JIT is ready with the missing features:
    # from operator import mul
    # from functools import reduce
    #
    #   if reduce(mul, size[2:], size[0]) == 1
    size_prods = size[0]
    for i in range(len(size) - 2):
        size_prods *= size[i + 2]
    if size_prods == 1:
        raise ValueError("Expected more than 1 value per channel when training, got input size {}".format(size))

上面的size是Size([1, xxx, 1, 1])
当size=Size([1, xxx]), size_prods是size[0]
当size=Size([1, xxx, 1, 1]), size_prods是size[0] * size[2] * size[3]
因此,为了避免这个错误,我们把batch_size改成大于1就可以,这就是为什么网上通用解释都是这个.
但是显然,我调整输入尺寸或者网络结构使得 size[2]和size[3]不为1也是可以的.

解决方法

1.优先建议,调整输入尺寸或者网络结构使得 size[2]和size[3]不为1
2.方法1如果不能用,则batch_size改成大于1

Attention is all you

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
BUG-Expected more than 1 value per channel when training, got input size torch.Size([1, xxx, 1, 1])

当size=Size([1, xxx, 1, 1]), size_prods是size[0] * size[2] * size[3]当size=Size([1, xxx]), size_prods是size[0]1.优先建议,调整输入尺寸或者网络结构使得 size[2]和size[3]不为1。上面的size是Size([1, xxx, 1, 1])2.方法1如果不能用,则batch_size改成大于1。就可以,这就是为什么网上通用解释都是这个.因此,为了避免这个错误,我们把。
复制链接

扫一扫