【芯片论文】存内计算(CIM)与近存计算(CNM)论文总结

前言

本文总结了存内计算(CIM:Computing In Memory)、存内处理(PIM:Processing In Memory)、近存处理(PNM:Processing Near Memory)、近存计算(PNM:Computing Near Memory)领域的一些论文,可作为研究、学习、开发的参考资料。

论文

题目:Towards Efficient In-memory Computing Hardware for Quantized Neural Networks: State-of-the-art, Open Challenges and Perspectives

名称:面向量化神经网络的高效内存计算硬件:最先进的开放挑战和前景

论文:https://arxiv.org/abs/2307.03936

摘要:本文对基于 IMC 的量化神经网络 (QNN) 进行了全面回顾,并将基于软件的量化方法与 IMC 硬件实现联系起来。此外,还提供了开放挑战、QNN 设计要求、建议和观点以及基于 IMC 的 QNN 硬件路线图。

题目:Memory-Centric Computing

名称:以内存为中心的计算

论文:https://arxiv.org/abs/2305.20000

摘要:本次演讲描述了以内存为中心的计算领域正在进行的有前景的研究和开发工作。我们将这些工作分为两个主要的基本类别:

1)使用内存进行处理,它利用内存结构的模拟操作特性在内存中执行大规模并行操作,2)近内存处理,它集成了内存控制器、逻辑和内存控制器中的处理能力。 3D 堆叠内存技术或内存芯片层,可实现对近内存逻辑的高带宽和低延迟内存访问。

题目:AnalogNAS: A Neural Network Design Framework for Accurate Inference with Analog In-Memory Computing

名称:AnalogNAS:通过模拟内存计算进行精确推理的神经网络设计框架

论文:https://arxiv.org/abs/2305.10459

代码:https://github.com/IBM/analog-nas

摘要:在本文中,我们提出了 AnalogNAS,这是一种自动化 DNN 设计框架,旨在部署在模拟内存计算 (IMC) 推理加速器上。我们进行了广泛的硬件模拟,以展示 AnalogNAS 在最先进 (SOTA) 模型上在各种微型机器学习 (TinyML) 任务上的准确性和部署效率方面的性能。

题目:WWW: What, When, Where to Compute-in-Memory

名称:WWW:什么、何时、何地进行内存计算

论文:https://arxiv.org/abs/2312.15896

摘要:在本文中,我们探讨了有关用于 ML 推理加速的 CiM 集成的这些问题的答案。我们使用 Timeloop-Accelergy 对 CiM 原型进行早期系统级评估,包括模拟和数字基元。我们将 CiM 集成到类似 Nvidia A100 的基准架构中的不同缓存级别,并为各种 ML 工作负载定制数据流

题目:AiDAC: A Low-Cost In-Memory Computing Architecture with All-Analog Multi-Bit Compute and Interconnect

名称:AiDAC:具有全模拟多位计算和互连的低成本内存计算架构

论文:https://arxiv.org/abs/2312.11836

摘要:在这项工作中,我们重点关注负责计算和及时互连的潜力,并展示了一种创新的 AiMC 架构,名为 AiDAC,具有三个关键贡献:

1)AiDAC 通过对电容器进行分组来提高多位计算效率并减少数据转换时间技术; 2) AiDAC首先采用行驱动器和列时间累加器来实现大规模AiMC阵列集成,同时最大限度地降低数据移动的能源成本。3)AiDAC是第一个支持大规模全模拟多位向量矩阵乘法(VMM)运算的作品。

题目:Heterogeneous Integration of In-Memory Analog Computing Architectures with Tensor Processing Units

名称:内存模拟计算架构与张量处理单元的异构集成

论文:https://arxiv.org/abs/2304.09258

摘要:本文介绍了一种新颖的异构、混合信号和混合精度架构,该架构将 IMAC 单元与边缘 TPU 集成,以增强移动 CNN 性能。为了利用 TPU 用于卷积层和 IMAC 电路用于密集层的优势,我们提出了一种统一的学习算法,该算法结合了混合精度训练技术,以减轻在 TPU-IMAC 架构上部署模型时潜在的准确性下降。

题目:Hardware-aware training for large-scale and diverse deep learning inference workloads using in-memory computing-based accelerators

名称:使用基于内存计算的加速器对大规模和多样化的深度学习推理工作负载进行硬件感知训练

论文:https://arxiv.org/abs/2302.08469

摘要:在这里,我们使用硬件感知 (HWA) 训练来系统地检查 AIMC 对于跨多个 DNN 拓扑的多个常见人工智能 (AI) 工作负载的准确性,并研究对广泛的非理想情况的敏感性和鲁棒性。通过引入一种新的、高度真实的 AIMC 交叉模型,我们显着改进了早期的再训练方法。

题目:Analog, In-memory Compute Architectures for Artificial Intelligence

名称:适用于人工智能的模拟内存计算架构

论文:https://arxiv.org/abs/2302.06417

摘要:本文分析了数字和模拟内存计算架构中能源效率的基本限制,并将其性能与单指令、单数据(标量)机器(特别是在机器推理的背景下)进行了比较。分析的重点是效率如何随着要执行的计算的大小、算术强度和位精度而变化。

题目:CINM (Cinnamon): A Compilation Infrastructure for Heterogeneous Compute In-Memory and Compute Near-Memory Paradigms

名称:CINM(Cinnamon):内存中异构计算和近内存计算范式的编译基础设施

论文:https://arxiv.org/abs/2301.07486

摘要:我们提出了 CINM (Cinnamon),这是第一个端到端编译流程,它利用层次抽象来泛化不同的 CIM 和 CNM 设备,并实现与设备无关和设备感知的优化。Cinnamon 逐步降低输入程序,并在降低管道中的每个级别执行优化。

题目:End-to-End DNN Inference on a Massively Parallel Analog In Memory Computing Architecture

名称:大规模并行模拟内存计算架构上的端到端 DNN 推理

论文:https://arxiv.org/abs/2211.12877

摘要:在这项工作中,我们展示了端到端 ResNet-18 DNN 在 512 集群异构架构上的完整推理,该架构耦合了 AIMC 核心和数字 RISC-V 核心,实现了高达 20.2 TOPS。此外,我们分析了可用非易失性单元上的网络映射,将其与最先进的模型进行比较,并得出基于 AIMC 设备的下一代众核架构的指南。

题目:Reliability-Aware Deployment of DNNs on In-Memory Analog Computing Architectures

名称:内存模拟计算架构上 DNN 的可靠性感知部署

论文:https://arxiv.org/abs/2211.00590

摘要:在这里,我们介绍了一种实用方法,将 DNN 中的大型矩阵部署到多个较小的 IMAC 子阵列上,以减轻噪声和寄生效应的影响,同时保持模拟域中的计算。

题目:Memory Safe Computations with XLA Compiler

名称:使用 XLA 编译器进行内存安全计算

论文:https://arxiv.org/abs/2206.14148

摘要:我们开发了一个 XLA 编译器扩展,它可以根据用户指定的内存限制来调整算法的计算数据流表示。我们表明,k 最近邻和稀疏高斯过程回归方法可以在单个设备上以更大的规模运行,而标准实现可能会失败。我们的方法可以更好地利用硬件资源。

题目:Vector In Memory Architecture for simple and high efficiency computin

名称:矢量内存架构,实现简单高效的计算

论文:https://arxiv.org/abs/2203.14882

摘要:我们的建议是向量内存架构(VIMA),使用向量功能单元在 3D 堆栈内存附近执行大型向量指令,并使用小型数据缓存来实现短期数据重用。它提供了一个简单的编程接口并保证精确的异常。当使用单核执行流式应用程序时,VIMA 通过在单核处理器中进行向量运算,使 CPU 系统基准速度提高高达 26 倍,同时能耗降低 93%。

题目:CoMeFa: Compute-in-Memory Blocks for FPGAs

名称:CoMeFa:FPGA 内存计算模块

论文:https://arxiv.org/abs/2203.12521

摘要:我们建议修改 BRAM,将其转换为 CoMeFa(FPGA 内存计算块)RAM。这些 RAM 通过将计算和存储功能组合在一个块中,提供高度并行的内存计算。CoMeFa RAM 利用 FPGA BRAM 的真正双端口特性,并包含多个可编程单比特位串行处理元件。

CoMeFa RAM 可用于任何精度的计算,这对于深度学习等不断发展的应用程序极其重要。将 CoMeFa RAM 添加到 FPGA 显着提高了其计算密度。我们探索并提出了这些 RAM 的两种架构:CoMeFa-D(针对延迟进行了优化)和 CoMeFa-A(针对面积进行了优化)。

与现有提案相比,CoMeFa RAM 不需要更改底层 SRAM 技术,例如在同一端口上同时激活多行,并且易于实现。CoMeFa RAM 是多功能模块,可在深度学习、信号处理、数据库等多种并行应用中找到应用。

通过使用 CoMeFa-D (CoMeFa-A) RAM 增强类似英特尔 Arria-10 的 FPGA,成本降低 3.8% (1.2%) 面积,并且通过算法改进和高效映射。

题目:Benchmarking Memory-Centric Computing Systems: Analysis of Real Processing-in-Memory Hardware

名称:以内存为中心的计算系统的基准测试:内存硬件中实际处理的分析

论文:https://arxiv.org/abs/2110.01709

摘要:本文介绍了对第一个公开可用的真实 PIM 架构的首次全面分析的关键要点。我们提供了来自我们研究的有关 UPMEM PIM 架构的四个关键要点。有关不同工作负载对 PIM 系统的适用性的更多见解、针对软件设计人员的编程建议以及针对未来 PIM 系统的硬件和架构设计人员的建议和提示。

题目:Augmented Memory Computing: Dynamically Augmented SRAM Storage for Data Intensive Applications

名称:增强内存计算:适用于数据密集型应用的动态增强 SRAM 存储

论文:https://arxiv.org/abs/2109.03022

摘要:在本文中,我们提出了一种基于 CMOS SRAM 的新型以内存为中心的方案,用于加速数据密集型应用。我们的建议旨在按需动态增加 SRAM 阵列的片上内存存储容量。所提出的称为增强内存计算的方案允许 SRAM 单元以两种不同的模式运行:

1) 正常模式和 2) 增强模式。在正常操作模式下,SRAM 单元的功能类似于标准 6 晶体管 (6T) SRAM 单元,以静态格式存储一位数据。在增强模式下,每个 SRAM 单元可以存储 >1 位数据(以动态方式)。

题目:An In-Memory Analog Computing Co-Processor for Energy-Efficient CNN Inference on Mobile Devices

名称:用于在移动设备上进行节能 CNN 推理的内存模拟计算协处理器

论文:https://arxiv.org/abs/2105.13904

摘要:在本文中,我们开发了一种内存模拟计算(IMAC)架构,可在非易失性内存阵列中实现突触行为和激活功能。利用自旋轨道扭矩磁阻随机存取存储器 (SOT-MRAM) 器件来实现 S 形神经元以及二值化突触。

首先,它表明所提出的 IMAC 架构可用于实现多层感知器 (MLP) 分类器,与之前的混合信号和数字实现相比,可实现数量级的性能改进。接下来,提出了一种异构混合信号和混合精度 CPU-IMAC 架构,用于移动处理器上的卷积神经网络(CNN)推理,

其中 IMAC 被设计为协处理器来实现全连接(FC)层,而卷积层则被设计为协处理器。层在CPU中执行。开发架构级分析模型来评估CPU-IMAC架构的性能和能耗。

题目:Solving Large Top-K Graph Eigenproblems with a Memory and Compute-optimized FPGA Design

名称:使用内存和计算优化的 FPGA 设计解决大型 Top-K 图特征问题

论文:https://arxiv.org/abs/2103.10040

摘要:在这项工作中,我们提出了一种硬件优化算法来近似表示大型图拓扑的稀疏矩阵上的 Top-K 特征问题的解决方案。我们通过利用 HBM、脉动架构和混合精度算术的定制 FPGA 硬件设计对我们的算法进行原型设计。

题目:DNN+NeuroSim: An End-to-End Benchmarking Framework for Compute-in-Memory Accelerators with Versatile Device Technologies

名称:DNN+NeuroSim:采用多功能设备技术的内存计算加速器的端到端基准测试框架

论文:https://ieeexplore.ieee.org/abstract/document/8993491

代码:https://github.com/neurosim/DNN_NeuroSim_V1.0

摘要:DNN+NeuroSim 是一个集成框架,用于对深度神经网络的内存计算 (CIM) 加速器进行基准测试,具有从设备级到电路级再到算法级的分层设计选项。我们

开发了一个 Python 包装器,用于将 NeuroSim 与 Pytorch 和 Tensorflow 等流行的机器学习平台连接起来。该框架支持自动算法到硬件映射,并在硬件约束下评估芯片级性能和推理精度。

题目:A learnable parallel processing architecture towards unity of memory and computing

名称:一种可学习的并行处理架构,实现内存和计算的统一

论文:https://www.nature.com/articles/srep13330

摘要:我们展示了一种由名为“iMemComp”的电阻开关(RS)器件构建的非冯·诺依曼架构,其中内存和逻辑与单一类型的器件统一。

利用crossbar RS阵列的非易失性和结构并行性,我们为“iMemComp”配备了并行计算和学习用户定义逻辑函数的能力,用于大规模信息处理任务。这种架构消除了冯诺依曼计算机中耗能的数据移动。

题目:15.4 A 22nm 2Mb ReRAM Compute-in-Memory Macro with 121-28TOPS/W for Multibit MAC Computing for Tiny AI Edge Devices

名称:15.4 具有 121-28TOPS/W 的 22nm 2Mb ReRAM 内存计算宏,用于微型 AI 边缘设备的多位 MAC 计算

论文:https://ieeexplore.ieee.org/abstract/document/9063078

摘要:

题目:Compute in-Memory with Non-Volatile Elements for Neural Networks: A Review from a Co-Design Perspective

名称:使用神经网络的非易失性元素进行内存计算:协同设计角度的回顾

论文:https://onlinelibrary.wiley.com/doi/full/10.1002/adma.202204944

摘要:我们对这种基于交叉的内存计算方法进行了协同设计。我们探索新材料和新器件在应对这一挑战中的作用,同时考虑芯片架构、电路设计、技术和应用对这些材料的要求。

题目:Challenges and Trends of SRAM-Based Computing-In-Memory for AI Edge Devices

名称:AI 边缘设备基于 SRAM 的内存计算的挑战和趋势

论文:https://ieeexplore.ieee.org/abstract/document/9382915

摘要:本文概述了 SRAM-CIM 宏进一步开发的背景、趋势和挑战。本文还回顾了最新经过硅验证的 SRAM-CIM 宏,该宏设计用于逻辑和乘法累加 (MAC) 运算。

题目:Mixed-precision in-memoryCcomputing

名称:混合精度内存计算

论文:https://www.nature.com/articles/s41928-018-0054-8

摘要:我们引入混合精度内存计算的概念,它将冯诺依曼机与计算内存单元结合起来。在这个混合系统中,计算内存单元执行大部分计算任务,而冯·诺依曼机则实现后向方法来迭代提高解决方案的准确性。因此,该系统受益于数字计算的高精度和内存计算的能量/面积效率。

题目:In-Memory Computing: Advances and Prospects

名称:内存计算:进展与前景

论文:https://ieeexplore.ieee.org/document/8811809

摘要:

题目:A Novel Processing Unit and Architecture for Process-In Memory (PIM) in NAND Flash Memory

名称:NAND 闪存中处理内存 (PIM) 的新型处理单元和架构

论文:https://ieeexplore.ieee.org/document/10031375

摘要:我们提出了一种共享缓存寄存器的 NAND 闪存 PIM 方案。与 DRAM PIM 方案相比,我们的方案显着减少了内存层次结构内的数据传输,并将运行时间减少了−41.6%。与NAND闪存方案相比,我们将运行时间缩短了−34.6%

题目:A Review of 3D-Dynamic Random-Access Memory based Near-Memory Computation

名称:基于3D动态随机存取存储器的近存计算综述

论文:https://ieeexplore.ieee.org/document/9687615

摘要:在本文中,我们分析了一些关键的 NMC 架构实现,特别是那些具有 3D 堆栈 DRAM 内存的实现。我们组织了一次跨结构、配置、应用程序、性能指标的文献综述,并提出了挑战和机遇。

题目:A Survey of MRAM-Centric Computing: From Near Memory to In Memory

名称:以 MRAM 为中心的计算综述:从近内存到内存中

论文:https://ieeexplore.ieee.org/document/9927218

摘要:本文概述了以 MRAM 为中心的计算开发的背景、趋势和挑战,并重点介绍了基于 MRAM-NMC 和 MRAM-IMC 的应用的最新原型和进展。

题目:A Review of Near-Memory Computing Architectures: Opportunities and Challenges

名称:近内存计算架构回顾:机遇与挑战

论文:https://ieeexplore.ieee.org/document/8491877

题目:A Review of 3D-Dynamic Random-Access Memory based Near-Memory Computation

名称:基于3D动态随机存取存储器的近存计算综述

论文:https://ieeexplore.ieee.org/document/9687615

题目:Benchmarking Memory-Centric Computing Systems: Analysis of Real Processing-In-Memory Hardware

名称:以内存为中心的计算系统的基准测试:内存硬件实际处理分析

论文:https://ieeexplore.ieee.org/document/9651614

题目:A Survey of Memory-Centric Energy Efficient Computer Architecture

名称:以内存为中心的节能计算机体系结构调查

论文:https://ieeexplore.ieee.org/document/10190135

题目:XLA-NDP: Efficient Scheduling and Code Generation for Deep Learning Model Training on Near-Data Processing Memory

名称:XLA-NDP:近数据处理内存深度学习模型训练的高效调度和代码生成

论文:https://ieeexplore.ieee.org/document/10079098

总结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YoungerChina

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值