pytorch 从放弃到入门（六）

最新推荐文章于 2023-02-05 12:31:37 发布

xpwmiracle

最新推荐文章于 2023-02-05 12:31:37 发布

阅读量278

点赞数

文章标签： pytorch 深度学习人工智能

本文链接：https://blog.csdn.net/xpwmiracle/article/details/125026509

版权

本文详细介绍了torchvision库的各部分，包括io、ops和utils，以及PyTorchVideo的用途和model zoo。同时，文章还探讨了torchtext在自然语言处理中的作用，如数据集构建、词汇表和评测指标。

摘要由CSDN通过智能技术生成

torchvision

8.2 torchvision — 深入浅出PyTorch

我们经常会用到torchvision来调用预训练模型，加载数据集，对图片进行数据增强的操作。

我们知道在计算机视觉中处理的数据集有很大一部分是图片类型的，如果获取的数据是格式或者大小不一的图片，则需要进行归一化和大小缩放等操作，这些是常用的数据预处理方法。除此之外，当图片数据有限时，我们还需要通过对现有图片数据进行各种变换，如缩小或放大、水平或垂直翻转等，这些是常见的数据增强方法。而torchvision.transforms中就包含了许多这样的操作。

from torchvision import transforms
data_transform = transforms.Compose([
    transforms.ToPILImage(),   # 这一步取决于后续的数据读取方式，如果使用内置数据集则不需要
    transforms.Resize(image_size),
    transforms.ToTensor()
])

torchvision.io

在torchvision.io提供了视频、图片和文件的 IO 操作的功能，它们包括读取、写入、编解码处理操作。随着torchvision的发展，io也增加了更多底层的高效率的API。在使用torchvision.io的过程中，我们需要注意以下几点：

不同版本之间，torchvision.io有着较大变化，因此在使用时，需要查看下我们的torchvision版本是否存在你想使用的方法。
除了read_video()等方法，torchvision.io为我们提供了一个细粒度的视频API torchvision.io.VideoReader() ，它具有更高的效率并且更加接近底层处理。在使用时，我们需要先安装ffmpeg然后从源码重新编译torchvision我们才能我们能使用这些方法。
在使用Video相关API时，我们最好提前安装好PyAV这个库。