深度学习在推断阶段的硬件实现方法概述

本文探讨了深度学习在推断阶段的硬件实现,对比了GPU、CPU、ASIC和FPGA等不同方案的优缺点。FPGA因其灵活性和效率,成为深度学习推断阶段的优选。文章强调了模型压缩、数据量化、简化网络结构、数据重用、计算结构优化以及存储结构设计的重要性,并提到编译工具在硬件映射中的关键作用。
摘要由CSDN通过智能技术生成
    众所周知,深度学习(deep learning)在训练阶段完成模型的建立和参数调优,在推断阶段完成具体的实现及应用。这就好比造车的过程与开车的过程一样,造车过程需要不断尝试“新设计-试车-调优”,而设计一旦定型后,就需要大规模生产制造,最终卖给用户使用。设计车型(训练阶段)时候可以借助各种工具和技术来加速研发与达到更高指标,但生产制造(推断阶段)时需要考虑成本、材料、市场等因素作出灵活适当的剪裁。深度学习在训练阶段常用GPU来加速训练,在推断阶段可以用CPU、专用芯片(ASIC)、FPGA等实现。 GPU并行能力非常强大(内部包括上千核),但成本高昂、功耗大,不适合在无人机、航天、手机通信等特定场景中应用; CPU作为通用芯片的代表,理论上将在训练、推断阶段均可使用,但运行速度教慢导致不适合做训练、功耗太大不适合在功耗有强烈要求的场景中做推断; ASIC通常是针对某个算法而设计的芯片,速度非常快,可以应用在推断阶段,但其设计周期长、成本高、缺乏灵活性不能适应深度学习算法快速更新的要求;FPGA是一种通用的芯片,在速度和功耗上位于CPU和ASIC之间,可以针对硬件编程所带来的并行行和灵活性可以很好地适应深度学习的需求(算法更新+推断阶段的要求),但其开发设计难度较大,门槛高,需要掌握硬件电路调试的知识。另外,像goolge的TPU、寒武纪的NPU,有人认为是一种ASIC,也有人称其为专用处理器(并列与CPU、DSP之外的新型处理器),他们是针对深度学习领域的算法(们)设计的一种计算芯片(显然,这是在推断阶段),其内部设计了一套适合算法
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值