【speech&nlp】如何实现总体数据按照长短排序,同样长度数据随机排序

3 篇文章 0 订阅
1 篇文章 0 订阅

在做speech、nlp任务时,经常有这样一个需求:假设有一个数据集,有1000条数据,但是只有100种长度,所以必然存在某些数据是一样长的。我们想要让总体按照长短排序,但是同样长的数据要随机排序。经过了这个操作,再分batch,这样的效果就是同一个batch的数据长度差不多,对各种norm操作很友好,也节约显存;在每个epoch前进行这个操作可以实现不同epoch内数据的随机。

发现了一段精美的代码,如下:

def ordered_indices(self):
        """Return an ordered list of indices. Batches will be constructed based
        on this order."""

        if self.shuffle:
            order = [np.random.permutation(len(self))]
            order.append(
                np.minimum(
                    np.array(self.sizes),
                    self.max_sample_size,
                )
            )
            return np.lexsort(order)[::-1]
        else:
            return np.arange(len(self))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值