关于存算一体芯片技术

随着人工智能对内存需求的增加,内存墙成为性能瓶颈。存算一体芯片技术,如近内存计算和存内计算,旨在减少内存访问开销并解决这一问题。存内计算通过在DRAM内部集成计算逻辑,而近内存计算则是通过3D封装技术将计算逻辑与DRAM结合。目前,巨头们正积极探索存算一体技术,以应对云端高性能计算的挑战。中国在该领域的研发仍有提升空间,尤其是存内计算技术,但已取得一定进展,有望赋能未来高性能计算和人工智能应用。
摘要由CSDN通过智能技术生成

关于存算一体芯片技术
破局“内存墙”,存算一体路线分析
随着人工智能应用的普及,云端相关的计算需求也在相应上升。对于基于神经网络的人工智能来说,算力是实现高性能模型的关键资源。

参考文献链接
https://mp.weixin.qq.com/s/pi8lDVuwpaGankzRGZ6Mzw
https://mp.weixin.qq.com/s/7DBRyslROM3KEOT-KNTUkA
https://mp.weixin.qq.com/s/rZV5CtIyxtKVhrRXtRVXKg

在云端的人工智能计算中,“内存墙”是一个重要的性能瓶颈。在目前的主流计算机架构中,处理和存储是两个截然不同的部分,而随着摩尔定律几十年来的发展,事实上存储器(尤其是主存DRAM)的性能发展是要远远落后于处理器的计算逻辑性能发展的,因此DRAM速度(包括存取和接口)就成为了限制云端算力发展的一个瓶颈。另一方面,云端人工智能模型的发展潮流是模型参数越来越多,例如在推荐系统这样的云端人工智能传统项目中,典型模型的尺寸达到GB数量级;而在语音识别、自然语言处理、计算机视觉这样的领域中,最近随着transformer类模型逐渐占据主流,模型的参数量也在上升。这两者相结合,就是一方面人工智能计算对于内存的需求越来越高,而另一方面传统的DRAM方案并不能满足云端人工智能的需求。
在这样的情况下,存算一体的方案正在获得越来越多的关注,并且正在慢慢由研究领域进入商用化。存算一体是指将内存和计算以相比传统计算机架构更紧密地结合在一起,从而减少内存访问带来地开销,并且解决“内存墙”问题。在云端计算的应用场景,存算一体方案主要是围绕DRAM去做创新,希望能将计算和DRAM能集成到一起,并以此降低内存访问的能量和延迟。对于具体的做法,实际上有两条主流技术路线:即近内存计算(near-memory computing)和存内计算(in-memory computing)。
业内巨头在相关领域有所动作,往往是一项技术走向成熟和商用的标志。对于云端存算一体来说,我们最近看到在这个领域都有相关技术发表。在今年下半年的顶级商用芯片会议HotChips上发表了HBM2-PIM相关的技术,在基于3D封装实现存算一体的论文则收录在明年二月即将召开的国际固态半导体电路会议(ISSCC)上。从技术路线上来说,主要是走存内计算的路线,同时也兼顾近内存计算;而目前则主要是针对近内存计算做开发。
存内计算路线
存内计算技术称为“Aquabolt-XL”,主要是基于其HBM2 DRAM技术做了存内计算(HBM2-PIM)。具体来说,Aquabolt-XL在HBM2 DRAM内部集成了计算逻辑,因此拥有HBM2-PIM技术的DRAM既可以当作一块普通的HBM2 DRAM来用(即直接写入读出,而绕开计算逻辑);也可以在写入和读出的时候同时让计算逻辑去做计算。当需要使用存内计算的时候,CPU只需要给HBM2-PIM写入数据以及相应的计算指令,而下次读出数据的时候可以直接读出已经计算好的结果。
在这里插入图片描述

存内计算的技术路线中,计算逻辑和存储单元都是使用相同的DRAM工艺,因此通常存内计算逻辑的性能比较有限,时钟频率无法到达很高,做到高性能计算逻辑则需要依靠对于DRAM工艺的深厚积累和优化。另一方面,由于计算逻辑和存储单元是深度集成,因此计算逻辑可以以较小的开销最大化地调用存储单元,并且可以做协同设计和优化。最后,存内计算在HBM2 DRAM中实现之后,可以较快地应用到其他规格地存储器中,包括用于桌面地DDR/GDDR以及使用于移动端的LPDDR等。除了HBM2-PIM之外,还公布了近内存计算方案AxDIMM,实现了在每个DRAM芯片旁边都集成了一块单独的加速器逻辑并可以同时访问,从而等效地大大增加了访存带宽。
主要走存内计算技术路线非常符合其技术背景以及商业模式。HBM2-PIM技术实际上是一块带有计算功能且在人工智能应用中能提升系统性能地内存芯片,所以最终还是希望能通过这个技术来确保其存储器业务在人工智能时代能继续保持领先。此外,在DRAM工艺领域地积累也确保它能做到使用DRAM实现存内逻辑计算的最优化,以及集成的成本可以控制到较好。
近内存计算路线
相对,目前在存算一体领域走的是近内存计算的方案。根据目前公布的资料,存算一体方案是把计算逻辑芯片和DRAM使用3D封装技术封装到一起,从而利用封装带来的高IO密度来实现高内存带宽以及较低的访问开销。从发表在明年ISSCC论文中,我们也可以看到这项技术是由达摩院和紫光共同开发而成。
在这里插入图片描述

使用近内存计算可以让计算逻辑使用和存储器DRAM单元不同的工艺来实现,这样计算逻辑可以实现较高地

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值