文章来源:ATYUN AI平台
Nvidia首席执行官Jensen Huang在日本GTC会议上的演讲中宣布了一系列消息,包括推出Tesla T4 GPU芯片,最新版本的TensorRT 5和TensorRT推理服务器,以及Jetson AGX Xavier开发人员套件。
Tesla T4 GPU芯片
Nvidia今天推出了Tesla T4 GPU芯片,以加速数据中心深度学习系统的推理。T4 GPU采用2560个CUDA内核和320个Tensor内核,处理查询的能力比CPU快近40倍。
作为推动深度学习市场的一部分,两年前Nvidia首次推出专为部署AI模型而制造的Tesla P4芯片。在语音识别推理中,T4比其P4快5倍以上,在视频推理上快3倍。
Nvidia的分析发现,在过去两年中使用P4进行的所有推断中,将近一半与视频有关,其次是语音处理,搜索,自然语言和图像处理。
与基于Pascal的P4不同,T4 采用用于GPU的Turing Tensor Core,这种架构有望为一系列Nvidia芯片提供动力,Huang称之为“自2006年CUDA GPU发明以来的最大飞跃”。
TensorRT 5和TensorRT推理服务器
TensorRT 5支持新的图灵架构,新的优化和INT8 API,与仅使用CPU的平台相比,其推理速度提高了40倍。
这个最新版本大大加快了推荐器,神经机器翻译,语音和自然语言处理应用程序的推理。
TensorRT 5亮点:
- 对于诸如使用Turing Tensor Cores上的混合精度进行平移的模型,可以将CPU推断速度提高40倍
- 使用新的INT8 API优化推理模型
- 支持基于Xavier的NVIDIA驱动器平台和用于FP16的NVIDIA DLA加速器
TensorRT 5将面向NVIDIA开发人员计划的成员。
TensorRT推理服务器是一种容器化微服务,可最大化GPU利用率,并在节点上同时运行来自不同框架的多个模型。它利用Docker和Kubernetes无缝集成到DevOps架构中。
Jetson AGX Xavier
Jetson AGX Xavier能够通过512核集成Volta Tensor Core GPU和双深度学习加速器(DLA)引擎提供高达32 TeraOPS(TOPS)的计算性能。
Jetson AGX Xavier在可部署的节能模块中提供与GPU工作站类似的性能,非常适合将资源密集型自主功能引入智能平台。它为边缘化处理提供了全新的机器人和其他自动化机器,用于制造,零售,医疗保健等。凭借10W,15W和30W之间的用户可配置工作模式,Jetson AGX Xavier的能效比其前身Jetson TX2高出10倍以上,性能高出20倍。
Jetson AGX Xavier开发套件现已上市,售价为2499美元。
本文转自ATYUN人工智能媒体平台,原文链接:Nvidia推出Tesla T4 GPU芯片等新产品,性能大突破
更多推荐
音乐小白也能乐曲创作 微软Azure机器学习工作平台教你玩音乐
为降低机器学习开发者门槛,苹果发布了Turi Create框架