存内计算的概念早在上个世纪就已经被提出,但当时的人们寄希望于通过优化处理器设计以及工艺制程的升级,来获得性能和能效比的提升,存内计算的研究仅停留在理论阶段。随着大数据时代的到来,存内计算由于其结构特点以及摩尔定律的“失效”,被认为是提升处理器能效和性能以及加速神经网络运算的新出路。接下来我们将从存内计算的源头出发,介绍它的发展史与近期取得的成果。
1. 存内计算及其优势
存内计算(In-Memory Computing
)是一种计算模型,其核心思想是将数据存储和计算操作放置在相同的内存空间中,以提高计算性能和效率。传统计算模型通常将数据存储在磁盘或其他外部存储介质上,然后在需要进行计算时将数据加载到内存中。而在存内计算中,数据在内存中保持常驻状态,计算操作直接在内存中执行,从而避免了频繁的数据传输和磁盘访问,提高了计算速度。
存内计算的优势包括:
-
高性能: 由于计算操作直接在内存中进行,避免了磁盘访问和数据传输的延迟,因此可以实现更快的计算速度。
-
低延迟: 存内计算可以降低数据访问的延迟,从而加速计算过程,特别是对于需要快速响应的应用场景非常有利。
-
简化架构: 存内计算可以简化系统架构,减少了对外部存储系统的依赖,提高了系统的可维护性和可扩展性。
-
适用于大规模数据: 存内计算对于处理大规模数据集时尤为有效,因为它可以充分利用内存的并行性和高速度。
存内计算通常在内存数据库、缓存系统、分布式计算等领域得到广泛应用。这种计算模型的发展得益于硬件技术的进步,如内存容量的增加和内存访问速度的提升。
2. 存内计算构想
存内计算这个概念早在1969年就有人提出。当时,斯坦福研究所的Kautz等人发表的一篇《Cellular Logic-in-Memory Arrays》首次将存储和逻辑整合,提出“logic-in-memory”方案[1],文中提出设计出一种细胞逻辑存储器(CLIM)阵列,在这一阵列中的基本门和连接方式可以通过“编程”来实现所需的逻辑操作,也即最早的“存储-逻辑一体”。如下图1为文中设计的一种“存储-逻辑一体”阵列及其实现的逻辑功能。
紧接着在1970年,来自斯坦福大学的Stone等人发表论文,设计了支持逻辑运算的存储计算架构。但总的来说,在上世纪七八十年代,处理器的性能瓶颈、存储墙、功耗墙等问题并不突出,牵制计算性能的是不够强劲的处理器,并且由于彼时摩尔定律还未“失效”,人们更期望通过工艺制程的升级获取能效比的提升,因此人们更多关注的是如何提升CPU性能,并没有在存内计算架构上做更多的文章与更深的研究。
1997年,加州大学伯克利分校的Patterson等人将处理器集成在DRAM上,实现了存储与计算的结合,但在这一时期,存内计算也仅仅停留在尖端实验室的理论研究阶段,并没有落地市场实际应用。
近年来,随着大数据、人工智能等应用的兴起以及摩尔定律的“失效”,英伟达、三星等世界知名的IC企业与高效都已将目光转向存内计算,并已有广泛布局和应用落地,目前,存内计算已成为“兵家必争之地”,在AI时代如何实现性能、算力、功耗的突破?存内计算,或许是一个可靠的答案。
3. 近代的存内计算
2010年后,大数据驱动应用发展迅猛,数据量呈现指数级暴增[2]。Nvidia的首席科学家Bill Dally在2015年的主题为“Nvidia’s Path to Exascale”的演讲中指出,DRAM与CPU之间的数据传输耗能是单纯双精度浮点数加法耗能的1000倍[3],数据传输带来的能耗成为此时计算能耗的主体部分,成为牵制大数据量计算能效的新瓶颈。
与此同时,新型存储器件迅猛发展,包括3D堆叠的存储器件,如HMC/HBM和3D XPoint;以及交叉栅栏式(crossbar)结构的非易失性存储器件,如RRAM和PCM。这样的非易失性存储器和传统DRAM结构相比,具有存储密度高和静态功耗低的优点,同时其特殊的物理结构为存储和计算相结合提供了支持[2]。
因此,研究者们考虑赋予内存一定的计算能力,从而减少数据移动,降低计算机系统运行能耗,存内计算在2010年后重新被研究者重视。
2010年,惠普实验室的Williams教授团队用忆阻器实现简单布尔逻辑功能。新型存储器的快速发展为存内计算奠定了技术基础。随着深度学习热潮的到来,存内计算由于其结构特点,被认为具有加速深度学习运算的能力,高校开始了存内计算的相关研究,国外开始出现以存内计算为卖点的处理器制造公司,如Mythic。2010年至2015年,可以认为是存内计算的技术积累阶段。
2016年至2020年,学术界在存内计算各个领域的研究取得进展。2016年,郭昕婕博士(现知存科技首席科学家)在美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队,研发出全球第一个3层神经网络的浮栅存内计算深度学习芯片(PRIME架构),首次验证了基于浮栅晶体管的存内计算在深度学习应用中的效用。相较于传统冯诺伊曼架构的传统方案,PRIME可以实现功耗降低约20倍、速度提升约50倍,引起产业界广泛关注。随着人工智能等大数据应用的兴起,存算一体技术得到国内外学术界与产业界的广泛研究与应用。随后,诸如PRIME、ISAAC等基于乘累加的存内计算架构以及基于逻辑操作、搜索操作的存内计算相关研究被提出[2]。
在2017年微处理器顶级年会(Micro 2017)上,包括英伟达、英特尔、微软、三星、加州大学圣塔芭芭拉分校等都推出了他们的存内计算系统原型[5]。也就是在2017年,郭昕婕就进一步攻下7层神经网络的浮栅存内计算深度学习芯片,同年归国联合创立知存科技,是国内最早成立的存内计算芯片公司。
2018年的集成电路领域顶会ISSCC专门用了一个议程来研讨存内计算相关话题;到2019年,电子器件领域的顶级会议IEDM上关于存内计算的研讨议程则变成了三个,相关论文也达到二十余篇;2020年的ISSCC上存内计算的论文也上升至七篇[6],足见存内计算在学术界的地位正在不断提升,相关学术成果为后续存内计算产品的井喷奠定了坚实的基础。九天睿芯、后摩智能等国内AI芯片公司在此期间成立,并开始技术积累。
2021年开始,存内计算相关产品逐步落地。包括三星、海力士、TSMC在内的国际巨头以及Mythic等公司经过技术沉淀,已经开始试产存内计算芯片,三星展示了基于HBM2-PIM技术的存内计算芯片、海力士展示了GDDR6-AiM的样品,TSMC展示了其在SRAM、ReRAM、PCM、STT-MRAM等多种器件上实现存内计算的探索成果。存内计算产业化初见成果,越来越多的存内计算产品落地。美国处理器公司Mythic推出M1076处理器,采用模拟存内计算方案,存储介质为Flash,在40nm制程工艺下实现25TOPS的算力与3W的功耗;2022年国内知存科技推出首款量产存内计算SOC芯片WTM2101,采用模拟存算计算范式,以Flash为介质,在40nm成熟工艺下以2.6x3.2mm²极小封装实现了50Gops的高算力,功耗低至5uA。已商用至智能可穿戴设备中2023年后摩智能推出鸿途H30芯片,采用数字存算计算范式,以SRAM为介质,实现256TOPS的算力与35W的功耗[8]。
在高校科研方面,清华大学集成电路学院教授吴华强、副教授高滨团队基于存内计算计算范式,研制出全球首颗全系统集成的、支持高效片上学习的忆阻器(RRAM)存内计算芯片。该研究成果以《面向边缘学习的全集成类脑忆阻器芯片》为题在线发表在《Science》上[9]。北京大学集成电路学院与人工智能研究院黄如院士课题组基于存内计算技术,提出高效的无ADC架构SRAM存内计算加速引擎,并在ISSCC 2022上发表文章[10]。
4. 存内计算开发者社区
亲爱的存内计算开发者们,迎来存内计算时代的浪潮,我们热情邀请您加入我们的存内计算开发者社区,共同创造未来的数字化体验。
在这个社区里,您将有机会:
-
技术分享: 与同行分享存内计算的最新技术和实践经验,激发创新思维。
-
项目合作: 寻找志同道合的伙伴,共同探索存内计算项目,助力技术应用的突破。
-
学习提升: 获取存内计算领域的培训资源,不断提升个人技能,跟上行业发展步伐。
-
社区互动: 参与在线论坛、线下活动,与其他存内计算开发者建立联系,共同促进行业交流。
加入我们,成为存内计算社区的一份子,共同书写内计算技术的精彩篇章。让我们携手推动存内计算的发展,共创数字化未来!期待您的加入,一同见证存内计算的辉煌!
一键加入:https://bbs.csdn.net/topics/617915760
4.1 福利满满
优质内容同步至社区精选以及CSDN相关社群;获取CSDN首页流量推广。
存内计算线下训练营免费参加;存内计算内容优先同步学习。
积分兑换丰厚礼品。
优质内容更有现金奖励。
一键加入:https://bbs.csdn.net/topics/617915760
5. 存内计算发展方向
现如今存内计算技术已经具有非常广阔的应用场景和广泛的发展方向,下面简单列举部分存内计算技术的研究热点。
(1)视频实时处理
视频实时处理是存内计算技术的一大应用方面,移动端设备(手机、无人机、手持设备)受限于散热,传统视觉芯片无法支持高标准的实时处理。存内计算技术的高带宽、高算力等特点,使得其在新型视觉芯片的研发上具有天然优势。在研究成果方面,国内知存科技推出WTM-8系列产品芯片,这是针对视频增强处理的一款高性能低功耗的移动设备计算AI视觉芯片,采用第二代3D存内计算架构,为全球首款存内计算视觉芯片,已完成投片即将量产,具备高算力、低功耗、高能效、低成本的核心优势,应用于高性能成像和空间计算[11]。
(2)感存算技术
感存算技术实际上就是在存内计算技术中加上了传感,感存算一体架构为集传感、储存和运算为一体的架构,解决冯诺依曼架构的数据搬运的功耗瓶颈的同时与传感结合提升整体效率。在科研成果方面,中国工程院罗毅院士研究团队在中国工程院院刊《Engineering》2022年第7期发表《感存算一体化智能视觉芯片的展望》一文,总结了感存算一体化智能成像系统中使用的两种不同类型的架构[12]。
(3)类脑计算技术
类脑计算,顾名思义是像“人脑”一样思考,借鉴生物大脑的信息处理方式,以神经元与神经突触为基本单元,从结构与功能等方面模拟生物神经系统,进而构建“人造超级大脑”的新型计算形态。在科研成果方面,2019年8月1日,清华大学类脑计算研究中心施路平教授团队研发出世界首款异构融合类脑计算芯片,在《Nature》杂志上发表相关论文《面向人工通用智能的异构“天机芯”芯片架构》[13]。
除了以上研究热点,存内计算技术还有很多其他的研究应用方面,比如AI加速卡、3D存内计算芯片设计等。当然,存内计算技术还有很多可能的研究应用亟待发现,期待存内计算真正全面走入我们生活中的一天。
[2] 毛海宇,舒继武,李飞等.内存计算研究进展[J].中国科学:信息科学,2021,51(02):173-205.
[3] in memory computing 存内计算是学术圈自娱自乐还是真有价值? - 知乎 (zhihu.com)
[4] Chi P, Li S, Xu C, et al. Prime: A novel processing-in-memory architecture for neural network computation in reram-based main memory[J]. ACM SIGARCH Computer Architecture News, 2016, 44(3): 27-39.
[5] 陈巍:存算一体技术是什么?发展史、优势、应用方向、主要介质 - 知乎 (zhihu.com)
[6] 存内计算,走在爆发的边缘 – 澎湃新闻 (thepaper.cn)
[7] 沉寂近30年后火了!存内计算如何打破AI算力瓶颈? - 知乎(zhihu.com)
[8] 后摩智能官网 (houmoai.com)
[9] 再添“芯”动能!清华团队发布最新Science-北京信息科学与技术国家研究中心 (tsinghua.edu.cn)
[10] 类脑智能芯片研究中心黄如院士 — 燕博南助理教授课题组在“存内计算AI芯片”领域取得重要研究成果-北京大学人工智能研究院 (pku.edu.cn)
[11] 知存科技官网 (witintech.com).
[12] Pan W, Zheng J, Wang L, et al. A future perspective on in-sensor computing[J]. Engineering, 2022, 14(7): 7797.
[13] 让自行车真正“自行” “天机芯”面向无限未来-清华大学官网 (tsinghua.edu.cn)
声明:本文转载于存内计算开发者社区