TPU结构总结

最新推荐文章于 2024-09-24 09:41:52 发布

枫溪夜影

最新推荐文章于 2024-09-24 09:41:52 发布

阅读量5.3k

点赞数 1

分类专栏：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zys615/article/details/78284717

版权

该博客详细介绍了TPU的结构，强调其设计目标是为了加速推理过程，主要通过PCIe接口与主机连接。文章指出，TPU的核心是256x256的矩阵乘法单元，能够执行高效的8bit乘加运算。权重通过片上缓存和8 GiB DRAM管理，而中间结果存储在24 MiB的统一缓冲区。TPU指令集采用CISC，关键指令包括读取主机和权重内存、矩阵乘法/卷积、激活函数应用以及写回主机内存。

摘要由CSDN通过智能技术生成

TPU只完成推理过程，训练过程在GPU上完成。TPU可以像GPU一样通过PCIe总线接口挂载到现有的服务器上。设计目标是为了在TPU上完成所有的推理模型，从而减少和主机CPU的交互，进而满足2015年及今后的神经网络需求。下图是TPU的整体结构框图。

主机通过PCIe Gen3x16的总线发送TPU的指令到其中的指令buffer内，内部模块之间通过典型的256位宽通路连接。右上角的矩阵乘法单元是TPU的核心，它由256x256个MACs组成，每个MACs可以对有符号和无符号整形的数据完成8bit的乘加运算。在矩阵单元的下面有一个4MiB大小32bit位宽的Accumulator，收集上面16bit的计算结果。4MiB代表4096个, 256-element, 32-bit累加器。矩阵单元每个时钟周期产生一个256-element的局部和（partial sum）。当使用8 bit权重（weight）和16 bit激活（activation）（或反之亦然）的混合时，矩阵乘法单元以半速计算，并且当它们都是16bit时以四分之一速度计算。它每个时钟周期读取和写入256个值，可以执行矩阵乘法或卷积。矩阵单元保存一个64KiB的权重块（ tile of weights），并使用了双缓冲（这样可以在处理时同时读入权重）。该单元设计用于密集矩阵，而没有考虑稀疏的架构支持（部署时间的原因）。稀疏性将在未来的设计中占有优先地位。

矩阵乘法单元的权重通过片上的权重FIFO（Weight FIFO）进行缓存，该FIFO从片外8 GiB DRAM读取。由于是用于推论，权重为只读。8 GiB可以同时支持许多模型。权重FIFO的深度是4个ti

最低0.47元/天解锁文章

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

枫溪夜影 CSDN认证博客专家 CSDN认证企业博客

码龄10年

8: 原创

41万+: 周排名

208万+: 总排名

3万+: 访问

: 等级

444: 积分

17: 粉丝

5: 获赞

7: 评论

75: 收藏

私信

关注

热门文章

分类专栏

dlib 1篇
python 1篇
人工智能 1篇
FPGA 3篇

最新评论

ubuntu16.04环境用pip3安装dlib
cleverZuoQia: Ubuntu 18.04亲测确实可用，已经成功安装，谢谢楼主
ubuntu16.04环境用pip3安装dlib
空想大师: 我也同样的问题，[code=html] pip3 install dlib -i https://pypi.tuna.tsinghua.edu.cn/simple/ Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple/ Collecting dlib Using cached https://pypi.tuna.tsinghua.edu.cn/packages/a4/7b/2f7f29f460629a8143b2deea1911e2fb1d9d88d29bf645ba321461588e88/dlib-19.21.0.tar.gz (3.2 MB) Building wheels for collected packages: dlib Building wheel for dlib (setup.py) ... error ERROR: Command errored out with exit status 1: command: /home/tarena/PycharmProjects/pythonProject/venv/bin/python -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'/tmp/pip-install-hq3qaq9x/dlib/setup.py'"'"'; __file__='"'"'/tmp/pip-install-hq3qaq9x/dlib/setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(__file__);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, __file__, '"'"'exec'"'"'))' bdist_wheel -d /tmp/pip-wheel-gyayscle cwd: /tmp/pip-install-hq3qaq9x/dlib/ Complete output (56 lines): running bdist_wheel ru [/code]
ubuntu16.04环境用pip3安装dlib
LukeZhaZha 回复 iyaiya: 你是咋解决的我遇到了和你一样的问题
NVIDIA JETSON TX2 DEVELOPER KIT硬件总结
CathyChen111: 请问tx2有自带网卡吗？
ubuntu16.04环境用pip3安装dlib
iyaiya: 这方法不行[code=plain] Command "/usr/bin/python3 -u -c "import setuptools, tokenize;__file__='/tmp/pip-build-qvcdjznt/dlib/setup.py';exec(compile(getattr(tokenize, 'open', open)(__file__).read().replace('\r\n', '\n'), __file__, 'exec'))" install --record /tmp/pip-1bjsltyr-record/install-record.txt --single-version-externally-managed --compile --user --prefix=" failed with error code 1 in /tmp/pip-build-qvcdjznt/dlib/ [/code]

大家在看

低代码牵手 AI 接口：开启智能化开发新征程 1003

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。