pytorch深度学习实战lesson30

本文探讨了GPU在模型训练和预测中的地位变化,介绍了DSP(数字信号处理)的低功耗特性、FPGA的可编程灵活性及其局限性,以及Systolic Array在矩阵运算中的优势。对比了这些芯片在性能、灵活性和成本上的特点。
摘要由CSDN通过智能技术生成

第三十课 更多的芯片

        虽然 GPU 现在是目前模型训练的主流芯片然后大家很多时候在做预测的时候也在 C PU 上做预测,但实际上来说这个在慢慢的发生改变。今天看一下目前的一些这样子的芯片。

        上图是个手机芯片,可以看到有很多计算单元,比如CPU、DSP等等。

     首先讲一下 DSP,DSP 叫做 digital signal processing 就叫数字信号处理芯片,最早就是说给数字信号处理作用的,它主要是给点积、卷积、快速傅里叶变化设计的。它的一个特点是说它功耗非常低,它的性能也挺高的。大家用 DSP 用的不是那么多,是因为首先它的编程和调试非常困难。

       FPGA叫做可编程阵列,它是一块硬件,但是它里面有大量的可以用来编程的逻辑单元。但是 FPGA的逻辑单元是可以编程的。而且里面那些连接是可以改变的。一般来说它的编程语言是Verilog用的多, vhdl用的比较多。

       缺点是工具链不是很行;FPGA编译是看板子有多大,太大的话编译很痛苦。

            它是一个特定芯片,就是我就针对于某一个应用做的特定的芯片。性能不错,还很便宜。它的核心是下图的东西。

       systolic array有一堆 process element 的阵列,叫 PE 阵列,可以认为每一个 PE 里面可以做一个矩阵乘法、加法这样的简单运算,而且它设计成了一个2d的形状,所以它就是用来设计用来做矩阵乘法的。

下面演示一下做矩阵乘法的过程:

       假设要做一个 Y 等于 W 乘以 X W 是一个3乘3的矩阵,那 X 是一个3乘2。那么结果就是一个三乘二对吧?之所以放个3乘3是因为因为systolic array是个3乘3的,所以W 最好是跟array 的形状是一样。

       输入有三个通道,这个地方每次以每个通道能进一个,一次进一个元素,

       再往右移一列。然后上一个时间的结果往下移一列。下面时间以此类推。

注意结果的表示。

       基本上可以看到是说GPU当CPU当然是灵活信用性最好了。所有东西基本上你所有的代码都在CPU能跑,但它性能其实计算性能是最差的。GPU它的灵活性还不错,就说你用 CUDA, 用 opencl都还不错 ,在同样的价位的情况下DSP的性能可能更好一点。然后FPGA和ASC性能功耗都可以,就是不灵活。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wo~he!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值