深度神经网络处理器--DianNao系列

最新推荐文章于 2024-08-16 22:53:52 发布

qs171310916

最新推荐文章于 2024-08-16 22:53:52 发布

阅读量1.1k

点赞数

文章标签：神经网络芯片

本文链接：https://blog.csdn.net/yy171310916/article/details/108900672

版权

全世界都在学中国话

一次看到这些 paper的名字，是在一个冰天雪地的，美国东北部偏僻的一个大学城里。听到印度女教授努力的发出‘dian nao’的发音，我心中不禁有一种温暖而自豪的感觉。我们花了整整半节课研究了diannao等一系列的产品。毕竟这一系列paper可以说是开启了AI加速器的先河了。之后才有了如今AI Accelerator百花齐放的局面，真可谓是前人‘挖坑’，后人‘灌水’。总而言之，这一系列产品尤其是Dian Nao 和Da Dian Nao在AI加速器发展过程中起到了举足轻重的作用。异国他乡能看到祖国的快速发展真是对每个游子的慰藉。

下面具体说说DianNao的贡献：Dian Nao设计了一个针对最新算法的加速器设计，并且对内存搬移进行了优化。首先，paper对算法进行了分析，他们认为没必要做在线的训练，因此只需要关注前向网络的加速。作者根据算法层，对于classifier层设计了减少带宽，具体而言，对于输入数据，由于太大不能全部放进L1 cache，因此首先将其tiling，然后再在tiling的范围内进行重复计算，这样就有效的减小了带宽。对于权重，用L2 cache将全部的权重存下。对于卷积层，输入和权重数据同样做了tiling。接下来，就介绍了NFU，神经运算单元。

算术运算部分分成了2-3个stage，对于classifier层：需要有乘法，累加，sigmoid；卷积层同上，pooling层没有乘法。具体到每一层来说： NFU-3里包括了2个16bit的mux，1个16bit乘法，1个16bit加法，并且还有一个小ram用来存储一些参数，这样就可以实现绝大多数的后处理计算了。对于存储部分split buffer，也分成了