百度英伟达联手推混合精度训练,同样性能只需一半内存 | 附论文

百度和英伟达共同研究的混合精度训练技术,使用16bit(FP16)训练神经网络,达到与32bit(FP32)相同准确率,降低内存需求并提升训练速度。该技术通过维护FP32权重主副本和损失缩放技术,解决了精度损失问题,并在DeepSpeech2模型上得到验证。
摘要由CSDN通过智能技术生成
夏乙 编译整理
量子位 出品 | 公众号 QbitAI

这几年来,各科技大厂搞出了越来越大的神经网络,达到了越来越高的准确率,但同时,这些模型对内存和计算力的要求也越来越高。

于是,有一部分研究者想要通过降低计算精度,来节约计算力。但使用混合精度或低精度运算往往会造成模型准确率的降低,还需要对网络进行修改。

现在,这个问题有了新进展。

百度和英伟达今天展示了一项双方的联合研究,用16bit半精度浮点数(FP16)来训练神经网络,降低了训练所需内存的同时,在同样的超参数下达到了和32bit单精度浮点数(FP32)相同的准确率。

他们在一篇题为Mixed Precision Training的论文中展示了这项训练神经网络的新技术。还分别在官方博客上发文(通俗地)介绍了这种“混合精度训练”。

为什么要用混合精度,而不是直接改成FP16呢?这要从神经网络中的通用矩阵乘法运算说起。

深度学习模型中包含各种层,比如全连接层、卷积层、循环层等等,其中每一层都能用通用矩阵乘法(GEMM)运算来实现。在训练过程中,GEMM占据了大部分计算。

英伟达DeepStream是一种视频分析和边缘计算平台,它具备高效的流识别能力。DeepStream可以将实时视频流传输到其流识别模块,该模块使用深度学习算法对视频进行分析和识别。 流识别在很多场景中非常有用,例如视频监控系统和智能交通系统等。DeepStream可以实时对流视频进行多种分析,包括人脸识别、车牌识别、行为分析等。通过深度学习算法,DeepStream可以对视频中的对象进行准确的识别和分类,从而提供更丰富的信息和功能。 在流识别过程中,DeepStream利用高性能的NVIDIA GPU进行加速计算,确保视频流的实时分析和处理。DeepStream可以同时处理多个视频流,保持较低的延迟,并提供高质量的分析结果。这使得DeepStream非常适合处理大量视频数据和实时场景,提供高效的流识别解决方案。 除了识别流中的对象,DeepStream还可以借助其强大的边缘计算能力进行更复杂的视频分析任务。它可以实时检测和跟踪对象,分析行为模式和趋势,甚至进行实时的预测和决策。DeepStream的流识别功能可以通过与其他平台和系统集成,实现更丰富的智能视频应用。 总而言之,英伟达DeepStream能够高效地对流视频进行识别分析,利用其强大的边缘计算能力提供多种功能和智能。它是一个在视频监控和智能交通等领域非常有用的解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值