TPU结构总结

该博客详细介绍了TPU的结构,强调其设计目标是为了加速推理过程,主要通过PCIe接口与主机连接。文章指出,TPU的核心是256x256的矩阵乘法单元,能够执行高效的8bit乘加运算。权重通过片上缓存和8 GiB DRAM管理,而中间结果存储在24 MiB的统一缓冲区。TPU指令集采用CISC,关键指令包括读取主机和权重内存、矩阵乘法/卷积、激活函数应用以及写回主机内存。
摘要由CSDN通过智能技术生成

TPU只完成推理过程,训练过程在GPU上完成。TPU可以像GPU一样通过PCIe总线接口挂载到现有的服务器上。设计目标是为了在TPU上完成所有的推理模型,从而减少和主机CPU的交互,进而满足2015年及今后的神经网络需求。下图是TPU的整体结构框图。

A

主机通过PCIe Gen3x16的总线发送TPU的指令到其中的指令buffer内,内部模块之间通过典型的256位宽通路连接。右上角的矩阵乘法单元是TPU的核心,它由256x256个MACs组成,每个MACs可以对有符号和无符号整形的数据完成8bit的乘加运算。在矩阵单元的下面有一个4MiB大小32bit位宽的Accumulator,收集上面16bit的计算结果。4MiB代表4096个, 256-element, 32-bit累加器。矩阵单元每个时钟周期产生一个256-element的局部和(partial sum)。当使用8 bit权重(weight)和16 bit激活(activation)(或反之亦然)的混合时,矩阵乘法单元以半速计算,并且当它们都是16bit时以四分之一速度计算。它每个时钟周期读取和写入256个值,可以执行矩阵乘法或卷积。矩阵单元保存一个64KiB的权重块( tile of weights),并使用了双缓冲(这样可以在处理时同时读入权重)。该单元设计用于密集矩阵,而没有考虑稀疏的架构支持(部署时间的原因)。稀疏性将在未来的设计中占有优先地位。

矩阵乘法单元的权重通过片上的权重FIFO(Weight FIFO)进行缓存,该FIFO从片外8 GiB DRAM读取。由于是用于推论,权重为只读。8 GiB可以同时支持许多模型。权重FIFO的深度是4个ti

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值