深度学习在推断阶段的硬件实现方法概述

最新推荐文章于 2024-07-13 21:05:40 发布

烽火楼

最新推荐文章于 2024-07-13 21:05:40 发布

阅读量2.7k

点赞数 4

文章标签：深度学习 FPGA 加速器现状

本文链接：https://blog.csdn.net/wonder858/article/details/78236513

版权

本文探讨了深度学习在推断阶段的硬件实现，对比了GPU、CPU、ASIC和FPGA等不同方案的优缺点。FPGA因其灵活性和效率，成为深度学习推断阶段的优选。文章强调了模型压缩、数据量化、简化网络结构、数据重用、计算结构优化以及存储结构设计的重要性，并提到编译工具在硬件映射中的关键作用。

摘要由CSDN通过智能技术生成

众所周知，深度学习（deep learning）在训练阶段完成模型的建立和参数调优，在推断阶段完成具体的实现及应用。这就好比造车的过程与开车的过程一样，造车过程需要不断尝试“新设计-试车-调优”，而设计一旦定型后，就需要大规模生产制造，最终卖给用户使用。设计车型（训练阶段）时候可以借助各种工具和技术来加速研发与达到更高指标，但生产制造（推断阶段）时需要考虑成本、材料、市场等因素作出灵活适当的剪裁。深度学习在训练阶段常用GPU来加速训练，在推断阶段可以用CPU、专用芯片（ASIC）、FPGA等实现。 GPU并行能力非常强大（内部包括上千核），但成本高昂、功耗大，不适合在无人机、航天、手机通信等特定场景中应用; CPU作为通用芯片的代表，理论上将在训练、推断阶段均可使用，但运行速度教慢导致不适合做训练、功耗太大不适合在功耗有强烈要求的场景中做推断; ASIC通常是针对某个算法而设计的芯片，速度非常快，可以应用在推断阶段，但其设计周期长、成本高、缺乏灵活性不能适应深度学习算法快速更新的要求；FPGA是一种通用的芯片，在速度和功耗上位于CPU和ASIC之间，可以针对硬件编程所带来的并行行和灵活性可以很好地适应深度学习的需求（算法更新+推断阶段的要求），但其开发设计难度较大，门槛高，需要掌握硬件电路调试的知识。另外，像goolge的TPU、寒武纪的NPU，有人认为是一种ASIC，也有人称其为专用处理器（并列与CPU、DSP之外的新型处理器），他们是针对深度学习领域的算法（们）设计的一种计算芯片（显然，这是在推断阶段），其内部设计了一套适合算法

最低0.47元/天解锁文章

烽火楼

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
深度学习在推断阶段的硬件实现方法概述

当前主流的深度学习算法在硬件上实现的主要集中在压缩模型和设计计算模型两个方面，前者着力寻找一个简单有效易于实现的模型，后者重点在寻找一个基于现有硬件资源可以高效计算的方法，这二者的结合可以更加高效有效地解决推断阶段带来的计算复杂和存储爆炸等问题。
复制链接

扫一扫