Nvidia发布全新计算卡Tesla P40/P4

在北京召开的GTC 2016技术大会上,NVIDIA CEO黄仁勋亲自发布了新一代高性能计算卡Tesla P40、Tesla P4,专为人工智能、深度学习、神经网络推演而生!

NVIDIA CEO黄仁勋亲自发布了新一代高性能计算卡Tesla P40、Tesla P4

这两款产品将取代上代麦克斯韦架构的Tesla M40/M4,当然用了最新的帕斯卡架构(你们看命名就知道了… P代表Pascal),16nm妥妥的。

NVIDIA CEO黄仁勋亲自发布了新一代高性能计算卡Tesla P40、Tesla P4

新一代高性能计算卡Tesla P40、Tesla P4、TeslaM40、TeslaM4数据

Tesla P40基于高端大核心GP100,并且开启全部 3840个流处理器(此前的Titan X只有3584个),核心频率1303-1531MHz,FP32单精度浮点计算能力12 TFlops,INT8(八位数据专用推理指令) 处理性能高达 47 TOPS,响应速度比CPU快45倍。

该卡搭配384-bit 24GB GDDR5显存,等效显存频率为7.2Gbps,整卡功耗250W,采用被动式散热。(没错!真的是被动)值得一提的是,同是GP100大核心的Tesla P100也只开启了3584个流处理器,(比P40要少)。

NVIDIA CEO黄仁勋亲自发布了新一代高性能计算卡Tesla P40、Tesla P4

Tesla P4的核心则是GTX 1080/1070同款的GP104,全部2560个流处理器,核心频率只有810-1063MHz,单精度性能5.5TFlops,INT8 22TOPS,搭配256-bit 6Gbps 8GB GDDR5显存,功耗50-75W,半高被动散热。并且长度只有一根铅笔那么长!

相比于前辈,P4/P40的计算性能分别提升了70%、1.5倍,INT8特性也是首次加入,但功耗维持不变。

NVIDIA CEO黄仁勋亲自发布了新一代高性能计算卡Tesla P40、Tesla P4

NVIDIA表示, Tesla P40可提供非常高的深度学习工作负载处理能力,一台配备八块Tesla P40加速器的服务器在性能上可媲美140多台CPU服务器,同时成本节省超过65万美元。

Tesla P4则可为超大规模数据中心提供极高的能效, 一台配备单个Tesla P4的服务器可以取代13台CPU服务器,总体拥有成本可 节省超过800%。

NVIDIA CEO黄仁勋亲自发布了新一代高性能计算卡Tesla P40、Tesla P4

同时,NVIDIA还发布了两款配套的开发工具:TensorRT是为优化将部署到生产环境的深度学习模型而创建的库,能即时响应极其复杂的网络;DeepStream SDK则利用帕斯卡务器的强大功能同时,对最多达93路的高清视频流进行实时解码和分析。

Tesla P40/P4将分别在10月、11月发货给相关OEM、ODM厂商。

原文链接

Nvidia 发布全新计算卡Tesla P40/P4

更多推荐

科大讯飞“玩转”人工智能   邀全民共建“中国方言库”

阿里云携手NVIDIA拓展AI培训计划

看!世界各国都在积极布局人工智能

AI正在情报分析领域大展神威    采取FBI谈判技巧

YOLO—实时对象检测的新视角

本文为ATYUN(www.atyun.com)编译作品,ATYUN专注人工智能

请扫码或微信搜索ATYUN订阅号及时获取最新内容
标题请扫码或微信搜索ATYUN订阅号及时获取最新内容

 

### 部署 DeepSeek 模型于 Tesla P40 24G GPU 为了在 Tesla P40 24GB GPU 上成功部署 DeepSeek 深度学习模型,需考虑硬件资源限制以及软件环境配置。以下是具体指导: #### 环境准备 确保安装了兼容的 NVIDIA CUDA 和 cuDNN 版本。对于 Tesla P40 而言,推荐使用 CUDA 11.x 或更高版本。 ```bash sudo apt-get update && sudo apt-get install -y nvidia-cuda-toolkit ``` #### 安装依赖库 创建一个新的 Python 虚拟环境来管理项目所需的包,并激活该虚拟环境。 ```bash python3 -m venv myenv source myenv/bin/activate pip install --upgrade pip setuptools wheel torch torchvision torchaudio ``` #### 获取 DeepSeek 模型文件 访问官方 GitHub 页面或其他可信源下载预训练权重和其他必要组件。 ```python import os os.system('git clone https://github.com/deepseek-labs/model-repo.git') ``` #### 修改推理脚本适应低内存情况 由于 Tesla P40 只有 24 GB VRAM,在加载大型神经网络时可能会遇到 OOM (Out Of Memory) 错误。可以尝试以下几种优化措施减少显存占用: - **减小批量大小(batch size)**: 将 batch_size 设置为较小值如 `batch_size=1`。 - **启用混合精度(half precision)**: 使用 FP16 数据类型代替默认的 FP32 来节省一半的空间需求。 ```python from torch.cuda.amp import GradScaler, autocast with autocast(): output = model(input_tensor) ``` - **裁剪不重要的层(pruning layers)**: 移除不必要的分支或者简化结构复杂的部分。 - **分布式数据并行(distributed d
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值