----cpu/gpu/fpga/asic的优缺点对照

- 软硬件协同设计
DL加速器的提升在于“巅峰性能”“高利用率”“低工作负载”我们可以通过软硬件协同设计的方式提升深度学习加速器的性能。
#软件实现#
model design:软件上设计需要的模型
compression:降低工作负载,也就是计算量,把一些不重要的参数置零(模型压缩)
#硬件实现#
quantization:参数以固定bit的方式送入硬件(量化)
hardware design:用HDL设计硬件
软件优化的方法
硬件优化的方法
在硬件架构中,我们比较关注的是循环映射问题,可以分为3个部分:
1、循环展开,数据在硬件上怎么并行,影响到硬件的巅峰性能和利用率
2、循环交换,怎么重用现有的硬件架构来实现数据重用,影响到片上存储器的设计和片外存储器的访问(这是相当重要的)
3、循环展平,每个计算任务要处理的数据块有多大,也会影响访存
通过不同的选择循环展开顺序降缓存的方法【1】
可重构的方法,对总线的访问很大压力。
多层映射的方法,对片上存储要求很高。
稀疏的方式,直接减参数量。