pytorch处理不同长度语音

飞呀飞呀飞呀

已于 2022-05-04 22:10:18 修改

阅读量2.3k

点赞数 1

文章标签：人工智能语音识别 python 深度学习

于 2022-05-04 17:37:11 首次发布

本文链接：https://blog.csdn.net/yin_fei_0825/article/details/124574063

版权

深度学习处理不同长度语音信号解决方案

1 在输入模型之前

保证所有输入长度一致，也有两种方式，第一，对所有数据进行进行随机裁剪（random crop）以及进行补零(zero-padding)；第二，在mini-batch内进行对-mini-batch内的数据进行随机裁剪（random crop）和补零(zero-padding)；
其中上述第一种方式，可以直接将所有数据输入到网络内；第二种方式需要修改深度学习中输入dataloader。修改方式可以参考pytorch加载不同尺寸
在加载完mini-batch中数据后进行操作。

2 在输入模型之后

通过自适应平均池化层，从而将所有数据保证相同维度。
例如
输入维度是（1, C, H, W）,经过神经网络之后得到（1, Cn, Hn, Wn)。通过自适应平均池化，可得到（1， Cn, K）。
一个batch内的数据，可逐个输入模型之后从而得到一个相同维度输出。并计算mini-batch内的loss。