Pytorch框架：Torch标准库+(Torchtext/Torchaudio/Torchvision)+CUDA

最新推荐文章于 2024-04-18 11:57:29 发布

yeen123

最新推荐文章于 2024-04-18 11:57:29 发布

阅读量264

点赞数

分类专栏：深度学习入门文章标签：深度学习 pytorch python

原文链接：https://zhuanlan.zhihu.com/p/145810572

版权

深度学习入门专栏收录该内容

4 篇文章 1 订阅

订阅专栏

文章介绍了torchvision模块的功能，包括处理图像、视频的工具，以及与torch版本和CUDA的匹配要求。通过示例展示了如何使用预训练模型进行物体识别，并提到Fine-tune目标检测模型的便利性，特别提到了行人检测的实例作为Fine-tune的简单应用。

摘要由CSDN通过智能技术生成

很多基于Pytorch的工具集都非常好用，比如处理自然语言的torchtext，处理音频的torchaudio，以及处理图像视频的torchvision。

torchvision包含一些常用的数据集、模型、转换函数等等。当前版本0.5.0包括图片分类、语义切分、目标识别、实例分割、关键点检测、视频分类等工具，它将mask-rcnn功能也都包含在内了。mask-rcnn的Pytorch版本最高支持torchvision 0.2.*，0.3.0之后mask-rcnn就包含到tensorvision之中了。

安装

torchvision安装非常方便：

$ pip install torchvision

但需要注意版本匹配：

    torch 1.1.0/1.1.0 + torchvision 0.2.* + CUDA 9
    torch 1.2.0/1.3.0 + torchvision 0.3.* + CUDA 10
    torch 1.2.0/1.3.0 + torchvision 0.4.* + CUDA 10
    torch 1.4.0 + torchvision 0.5.* + CUDA 10

高版本的torchvision提供更多的功能，但需要升级torch库，同时还需要与CUDA版本匹配，否则无法正常工作。从CUDA 9 升级成CUDA 10，还需要升级与CUDA 10匹配的显卡驱动，如nvidia-drivers-430。如果使用docker，则需要升级宿主机的显卡驱动。

例程

下面示例使用预训练的模型识别图片中的物体：

    import torch
     
    import torchvision
    from PIL import Image
    import torchvision.transforms as transforms
    device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
    model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained=True)
    model.to(device)
    model.eval()
    loader = transforms.Compose([transforms.ToTensor()])
    image = Image.open('xxx.jpg').convert('RGB')
    image = loader(image)
    image = image.to(device, torch.float)
    x = [image]
    predictions = model(x)
    print(predictions)