PyTorch1.12中对于张量核心运算设定的调整

最新推荐文章于 2023-11-21 10:55:38 发布

暮光霭明

最新推荐文章于 2023-11-21 10:55:38 发布

阅读量1.7k

点赞数 1

文章标签： pytorch 深度学习人工智能

本文链接：https://blog.csdn.net/zMGAM/article/details/126276885

版权

Tensor Float 张量核心计算

在NVIDIA安培架构的显卡上，有张量计算单元（Tensor Core）。在计算时，其使用Tensor Float（TF）格式的数据。
PyTorch在1.7-1.11版本间是默认允许使用TF格式数据进行计算的.

但在最近的1.12版本更新中，PyTorch默认禁用了这一数据格式。PyTorch有关CUDA计算的说明

根据官方的建议（PyTorch论坛有关混合精度运算的建议），通常情况下应当在训练中同时使用AMP（自动混合精度）和TF32张量核心计算，以此尽可能地提高训练效率。

因此，在1.12版本中，需要手动执行这一设定。

使能代码

Tensor Float 32数据类型运算使能如下，相对简单

torch.backends.cuda.matmul.allow_tf32 = True
torch.backends.cudnn.allow_tf32 = True

有关AMP自动混合精度运算的文章如下，需要对代码略作调整

Pytorch自动混合精度(AMP)介绍与使用
 PyTorch官方关于AMP的说明
 PyTorch官方CUDA - AMP样例代码

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

暮光霭明

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
PyTorch1.12中对于张量核心运算设定的调整

PyTorch对张量计算的默认设置改动
复制链接

扫一扫

pytorch中tensor张量数据类型的转化方式

09-18

本篇文章将详细探讨PyTorch中张量数据类型的转化方法，这对于理解和使用PyTorch进行深度学习至关重要。 1. **张量与NumPy数组的相互转换** PyTorch的张量与NumPy数组之间可以方便地相互转换。这使得我们可以在两...

torch.backends(torch.backends.cudnn.allow_tf32)(torch.backends.cuda.matmul.allow_tf32)

hxxjxw的博客

03-13

2277

作用是是否允许PyTorch在内部使用TensorFloat32（TF32）的 tensor core (在NVIDIA GPU的新的Ampere架构开始使用) 来计算matmul（矩阵乘法和分批矩阵乘法）和卷积。TF32 tensor core的设计是为了在torch.float32张量上实现更好的matmul和卷积性能（它将输入数据四舍五入到有10比特的尾数，并以FP32精度累积结果，保持FP32动态范围）在torch1.7-1.11默认是True, 在1.12及以后默认是False。

参与评论您还未登录，请先登录后发表或查看评论

简单理解TensorFloat32

是云就要飞的博客

03-08

4868

细节持续补充

6、TORCH.BACKENDS

u013049912的博客

06-22

2199

torch.backends 控制 PyTorch 支持的各种后端的行为。这些后端包括： torch.backends.cuda torch.backends.cudnn torch.backends.mkl torch.backends.mkldnn torch.backends.openmp torch.backends.cuda torch.backends.cuda.is_built() 返回 PyTorch 是否使用 CUDA 支持构建。

torch.backends.cudnn.enabled = False会引起CUDA out of memory和CUDA error: an illegal memory access was

猪猪侠的博客

11-05

554

小问题

【天池学习赛语义分割】自定义数据集时报错处理

liu_198的博客

12-08

1379

项目场景：在自定义数据集的MMSegmentation中，运行一个模型是一个天池的练习赛：地表建筑物识别问题描述：对于数据集，在MMSeg中并没有和他对应的数据集格式，我就自己写了一个数据集，需要的config文件可以私我或者访问github 报错信息 File "/home/%%%%%/anaconda3/envs/open-mmlab/lib/python3.7/site-packages/torch/nn/modules/conv.py", line 446, in forward

使用AMP和Tensor Cores得到更快速，更节省内存的PyTorch模型

AI公园

10-31

2312

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”作者：RahulAgarwal编译：ronghuaiyang导读只需要添加几行代码，就可以得到更快速，更省显存的PyTorch...

pytorch个人学习之张量篇

05-12

pytorch个人学习之张量篇

实例PyTorch-Tensors（张量）.pdf

07-27

实例PyTorch——Tensors（张量）

PyTorch中Tensor的数据类型和运算的使用

09-16

在PyTorch中，Tensor是核心数据结构，用于构建神经网络和执行各种数值计算。它类似于numpy的ndarray，但具备在GPU上高效运行的能力，这使得PyTorch成为深度学习领域的重要工具。本文将深入探讨PyTorch中Tensor的数据...

CUDA 与 Pytorch 安装与使用提示

roufaen的博客

09-06

1973

Pytorch 安装与使用提示。

YOLOV5运行代码RuntimeError: cuDNN error: CUDNN_STATUS_BAD_PARAM

记录我目之所及的世界

09-25

721

RuntimeError: cuDNN error: CUDNN_STATUS_BAD_PARAM

加速PyTorch, Tensorflow等框架的推理流程

专注于人工智能领域的小何尚

05-28

1154

加速PyTorch, Tensorflow等框架的推理流程 NVIDIA A30 GPU 基于最新的 NVIDIA Ampere 架构构建，可加速各种工作负载，例如大规模 AI 推理、企业培训和适用于数据中心主流服务器的 HPC 应用程序。 A30 PCIe 卡将第三代张量核心与大容量 HBM2 内存 (24 GB) 和快速 GPU 内存带宽 (933 GB/s) 结合在一个低功耗封装（最大 165 W）中。 A30 支持广泛的数学精度： double-precision (FP64) single-p

《深度学习框架PyTorch入门与实践》——Tensor基本操作(1)

m0_58197804的博客

02-02

1375

《深度学习框架PyTorch入门与实践》——Tensor基本操作(1) 使用anaconda环境+pycharm

nvidia tf32格式的意义是啥？和fp32的区别

qq_15821487的博客

11-21

2547

NVIDIA Ampere架构引入了TF32的新支持，使AI训练能够在默认情况下使用张量核心，非张量运算继续使用FP32数据路径，而TF32张量核心读取FP32数据并使用与FP32相同的范围，内部精度降低，然后生成标准IEEE FP32输出。相对来说，在深度学习计算里，范围比精度要重要得多，于是有了BF16，牺牲了精度，保持和 FP32 差不多的范围，而TF32的设计，在于即汲取了BF16的好处，又保持了一定程度对主流 FP32 的兼容，FP32只要截断就是TF32 了。

CUDA 运算错误检测代码

ONE_SIX_MIX的专栏

10-28

1563

使用Torch-TensorRT在PyTorch中将推理速度提高6倍

专注于人工智能领域的小何尚

05-20

4561

使用Torch-TensorRT在PyTorch中将推理速度提高6倍我对Torch-TensorRT感到兴奋，这是PyTorch与NVIDIA TensorRT的新集成，它用一行代码就可以加速推理。PyTorch是当今领先的深度学习框架，在全球拥有数百万用户。TensorRT是一个用于跨gpu加速平台的高性能、深度学习推理的SDK，运行在数据中心、嵌入式和汽车设备上。这种集成使得PyTorch用户在使用TensorRT时可以通过简化工作流获得极高的推断性能。什么是 Torch-TensorRT

NVIDIA Tesla GPU系列P40参数性能——不支持半精度(FP16)模型训练