内存架构
文章平均质量分 74
古猫先生
长期混迹存储领域,先后供职于知名半导体外企和互联网存储研发,欢迎留言or私信交流~
展开
-
突破内存墙:DRAM的过去、现在与未来-2
HBM的能耗情况稍好一些,大约95%的能耗发生在接口上,5%发生在内存单元的读写上,但仍远未达到DRAM的全部潜力。不过,随着大量资金投入,或许在不久的将来会出现赢家,但这还需要大量的设备和量产规模的工作。我们可能会看到卸载的通道控制、互联上的纯结构扩展、在几厘米距离内的每比特能耗降低,以及与远离主机的其他HBM行或像LPDDR这样的第二层级内存的菊花链连接。3D DRAM不仅仅是简单的垂直堆叠,它是通过先进的封装技术如TSV来实现的,这些技术允许在不同的内存层之间进行高效的数据交换。原创 2024-09-04 08:23:02 · 2292 阅读 · 0 评论 -
突破内存墙:DRAM的过去、现在与未来-1
这比目前的带宽提高了两倍以上,但仅以1.3-1.5倍的功率,这样的缩放比例仍不足以应对整体内存功耗持续增加的问题。电容器在很多方面都是困难的。电容器具有非常高的长宽比,蚀刻一个直而窄的孔轮廓是非常困难的,特别是需要一个更厚的硬掩模以允许更深的蚀刻,而更厚的掩模又需要更厚的光刻胶,这使得图案化更加困难。LPDDR5X(低功耗DDR5,X代表增强版)提供了低功耗操作,但需要较短的距离和低电容连接到CPU,这限制了容量,因此用于移动电话和笔记本电脑,在这些设备中低功耗是有利的,并且布局约束是可以容忍的。原创 2024-09-04 08:22:24 · 2041 阅读 · 0 评论 -
3D DRAM集成AI能力,卷出新高度!
除了主流的 1T1C 3D DRAM 研究,还有其他创新的无电容 DRAM 方法在探索中。特别是对 3D DRAM 的探索,通过将存储单元垂直堆叠而非水平排列,可以在不大幅改变单个单元尺寸的情况下显著增加单位体积内的存储比特数,从而在一定程度上克服 2D 缩放的局限。可以公开查询的关于3D DRAM的论文,比如来自 国内长鑫存储CXMT(2023 IMW Conf.)和三星(2023 VLSI Symp.),都是DRAM厂商在专业会议上发布的针对 1T1C(一晶体管一电容)结构的 3D DRAM。原创 2024-08-30 23:24:07 · 3592 阅读 · 0 评论 -
DRAM 和 NAND 闪存收入将在 2024 年显著增长 75% 和 77%
根据 TrendForce 最新发布的市场报告,预计 2024 年 DRAM 和 NAND 闪存的收入将分别显著增长 75% 和 77%,这一增长主要是由于平均价格的上涨以及高价值产品的兴起,例如 HBM(高带宽内存)和 QLC(四层单元)闪存。- **平均价格上涨**:预计 2024 年 DRAM 平均价格将上涨 53%,2025 年上涨 35%,带动 DRAM 收入在 2024 年达到 907 亿美元,同比增长 75%;- **成本压力**:内存价格的上涨将导致电子产品成本增加。原创 2024-07-30 23:50:11 · 678 阅读 · 0 评论 -
继HBM之后, 内存领域新宠MCR DIMM闪亮登场!
传统上,DRAM模块在每次访问时只能激活一个内存列,而MCR DIMM通过在模块上集成的数据缓冲器,能够同时操作两个内存列,从而使得每次数据传输量翻倍,达到128字节。相比传统的RDIMM,MCRDIMM能在保持良好兼容性的同时提供更高的带宽,有望大幅提升服务器性能并降低总体拥有成本(TCO)。在服务器需求的推动下,MCRDIMM作为内存行业的新宠儿,正逐步登上历史舞台。相比之下,MRDIMM/MCRDIMM作为面向大容量、成本效益和可扩展内存的主流解决方案,有望成为未来AI和HPC首选的主要内存方案。原创 2024-07-30 23:16:29 · 891 阅读 · 0 评论 -
内存原生CRAM技术将会颠覆计算存储的未来?
例如,一项基于CRAM的机器学习推理加速器的研究表明,它在能量延迟乘积方面的性能比现有技术提高了大约1000倍。,与现有的内存内处理(Processing-In-Memory, PIM)解决方案不同,后者仅是在内存核心内部放置一个处理计算单元(PCU),而数据仍然需要在内存单元和PCU之间移动,只是距离较短。功能电路模拟与分析:最后,研究人员基于实验验证的结果,对更大规模的功能电路进行了模拟和分析,包括标量加法、乘法以及矩阵乘法,这些是许多传统和机器智能应用中的核心构建块。与三星的PIM技术相比,原创 2024-07-30 23:14:43 · 1466 阅读 · 0 评论 -
DRAM组件级故障预测模型,如何提升系统可靠性?-2
通过决策树分类器,能够对99%的报告错误的行列进行分类,并基于影响的列、行、Bank、行列、模块数量,错误地址间的距离,以及是否报告了明确的故障进行判断。相反,当模拟较弱的ECC(只能纠正2-DQ错误)时,预测的故障数为870次,接近观测值,考虑到研究系统中采取了Page-offline和DIMM替换措施以降低故障风险,这一预测更为合理。故障与错误模拟器是一种高级工具,它通过精确模拟DRAM组件级的故障及其导致的错误,来预测现代及未来DRAM系统中操作性故障和内在故障的影响。原创 2024-07-29 22:26:12 · 1699 阅读 · 0 评论 -
DRAM组件级故障预测模型,如何提升系统可靠性?-1
通过开放源代码的模拟器和模型,研究团队鼓励更广泛的社区参与到进一步的探索和优化工作中,共同推动内存系统设计迈向更高水平的性能和可靠性。二是随着加速器使用和新接口的普及,大量内存资源正逐步转移到非传统CPU ECC模块的DRAM组件中,如HBM和LPDDR,而这些组件的配置和接口特性与DDR DRAM有所不同,带来了新的挑战。尽管数据集存在一定的局限性,如缺乏位或引脚级别的错误信息,以及包含一些物理上不太可能出现的错误模式,但研究团队通过细致的分析方法克服了这些障碍,确保了模型的准确性和可靠性。原创 2024-07-29 22:25:37 · 751 阅读 · 0 评论 -
MCR DIMM如何解决内存带宽瓶颈?
随着云计算、大数据、人工智能(AI)和高性能计算(HPC)等领域对内存带宽的迫切需求,存储技术的创新显得尤为重要。在这个背景下,MCR DIMM(Multiplexer Combined Ranks DIMM)应运而生,成为解决内存带宽瓶颈的关键技术之一。随着处理器核心数的不断增加,为处理器提供足够的内存带宽一直是行业面临的挑战,特别是在数据中心领域,。MRDIMM技术的提出,为解决这一问题提供了新的策略,尤其是在双路或四路服务器配置中,能够有效利用有限主板空间提升整体内存带宽。原创 2024-07-19 21:25:51 · 1654 阅读 · 0 评论 -
内存RAS可靠性未来的研究重点
随着硬件架构的不断演进和工作负载的多样化,先进的ECC、创新的CRC应用以及片上ECC技术的应用,为降低内存错误带来的风险提供了更多可能性。未来,随着技术的持续进步,我们期待看到更加高效、智能的内存错误管理方案,进一步减少数据中心的停机时间和维护成本,支撑大数据和云计算时代的数据密集型应用。图26描绘了SDC在片上ECC和DRAM控制器中产生的过程,当D0和D1被错误地识别为单个错误数据,且在片上ECC中D3被错误修正时,DRAM控制器也会误解并错误修改了第i个数据Di,从而导致SDC。原创 2024-07-15 22:53:34 · 494 阅读 · 0 评论 -
内存RAS技术介绍:内存故障预测
这是因为在内存操作中,信号通过晶体管栅极传输时影响较小,但数据沿位线(bit lines)移动,连接到源或漏极时,由于位线的电阻或电容效应,电荷流动可能会受到干扰,导致较高的错误率。图25展示的OBET硬件模块图例中,该技术通过在特定数据单元间增设错误标志来追踪字节错误,这一设计虽然带来了1.6%的面积开销和3%的功率消耗,但提供了有效的错误监测机制。在图24(b)中,CE的情况显示,由于频繁的替换或迁移导致的成本高于因正确预测UE带来的好处,成本节省呈现负值,意味着预测策略在经济上是不利的。原创 2024-07-15 22:52:10 · 1647 阅读 · 0 评论 -
内存ECC基础纠错算法有哪些?
Chipkill技术显著提升了系统对于内存错误的抵抗能力,特别是在服务器和高性能计算环境中,能够提高系统的稳定性和可靠性,减少因内存错误导致的数据丢失或系统崩溃的风险。(图6a):首先,在发送端,数据被除以一个预定的多项式比特序列(例如,多项式p(x) = x^3 + x + 1,对应的二进制形式为1011)。SECDED编码同时应用于这四个不同的数据字,使得理论上每次最多可以纠正四个独立的单比特错误,或是一些组合的错误模式,包括一个DIMM内的多比特错误或一个整个DIMM的失效。原创 2024-07-15 22:50:44 · 1205 阅读 · 0 评论 -
内存ECC高级纠错算法有哪些?
图13展示了一种不依赖查找表的CRC错误纠正方法,该方法使用了一个生成多项式g(x) = x^4 + x + 1,在生成了s(x) = x^2 + 1时,通过与m比特数据的组合结果进行XOR运算,从t0到t5逐步执行,最后通过计算所有数据的总和P来判断是否存在错误。然而,受限于内存中的面积、延迟和功耗约束,实现强大的多比特错误纠正ECC面临着重大挑战。例如,SECDED(可能只需要较少的校验位,而像SEC-DEC-TAEC或SSEC这样的高级ECC技术,为了实现更强大的纠错能力,可能需要更多的校验位。原创 2024-07-15 22:50:37 · 1629 阅读 · 0 评论 -
内存架构与RAS技术概述
随着硬件规模的增长和工作负载的多样化,内存RAS技术不断演进,从基础的ECC技术到复杂的预测算法、人工智能应用,都在努力减少软硬错误带来的影响,确保数据中心的稳定运行和高效服务。在多CPU系统中,合理安排进程在不同Socket(即NUMA Node)上的分布,确保进程尽可能使用本地内存,可以减少跨Node内存访问带来的延迟,提升系统效率。:循环冗余校验技术的进步,如SSC(单符号纠正),将特定比特转换为符号,结合SPC-RS码,实现了更高的错误检测和纠正效率,减少了延迟。原创 2024-07-15 22:46:42 · 968 阅读 · 0 评论 -
数据中心内存RAS技术发展背景
此外,早期计算机科学中,如在贝尔实验室对错误数据的研究,已探索了数据冗余作为错误纠正的方法,例如通过存储三份数据来实现错误恢复,尽管这种方式带来了66%的存储冗余。对于拥有多个数据中心的大公司来说,这一成本更为显著。随着数据量的爆炸性增长和云计算的普及,数据中心内存的多比特错误及由无法纠正错误(UE)导致的停机问题日益凸显,这些故障不仅影响服务质量,还会带来高昂的修复或更换成本。高可靠性意味着设备在两次故障之间的平均时间较长,且在错误发生时,系统具备自我修复或隔离错误的功能,从而减少对系统运行的影响。原创 2024-07-15 22:41:09 · 587 阅读 · 0 评论 -
SK海力士豪掷750亿美元押注AI,HBM成重头戏
据《商业时报》报道,在为期两天的策略会议结束后,SK集团明确表示,此次巨额投资中的80%,即约82万亿韩元(600亿美元),将专项用于HBM的研发。此前,有关消息曾报道,韩国于2024年1月启动了“全球最大最强半导体超级集群建设计划”,拟至2047年投资622万亿韩元(约4540亿美元),在包括平泽、华城、龙仁、议政府和水原等京畿道南部城市新建16座工厂及研发中心,打造“半导体超级集群”。SK集团规划,至2026年,集团将投资80万亿韩元于AI与半导体领域,并持续优化业务结构以提升盈利能力及回馈股东。原创 2024-07-01 21:57:43 · 327 阅读 · 0 评论 -
万字长文|下一代系统内存数据加速接口SDXI解读
同时,传统的数据移动缺乏有效的虚拟化支持,且各厂商的直接内存访问(DMA)引擎及其接口没有统一的标准,给用户级软件的利用带来了不便。明确的暂停、恢复能力:SDXI具有清晰定义的能力,可以暂停、恢复每个地址空间数据移动器的架构状态,这对于实现实时工作负载或虚拟机在服务器间的迁移至关重要,有助于实现无中断的维护和动态资源调度。用户模式数据移动的标准接口:一旦连接建立,SDXI允许在用户模式下直接进行地址空间之间的数据移动,无需特权软件介入,降低了数据传输的复杂度和延迟,提高了应用层的性能。原创 2024-07-01 21:49:30 · 1822 阅读 · 0 评论 -
SK Hynix 3D DRAM良率突破56.1%,开启存储新时代
与成熟稳定的2D DRAM相比,3D DRAM目前展现出的性能特征尚不稳定,需要通过堆叠32至192层的存储单元来实现广泛应用所需的性能和容量。根据韩国财经媒体Business Korea独家报道:在刚刚结束的VLSI 2024国际研讨会上,韩国半导体巨头SK Hynix公布了一项振奋人心的进展:其五层堆叠3D DRAM的制造良率已达到56.1%。3D DRAM技术的突破性进展,不仅将推动存储密度和性能的大幅提升,还有望重塑市场格局,引发新一轮的竞争与合作。原创 2024-06-26 23:00:02 · 930 阅读 · 0 评论 -
CXL:拯救NVMe SSD缓存不足设计难题-2
然而,在读工作负载下,两者性能都有所下降,LMB-CXL在顺序和随机读取上分别低了8%和56%,而LMB-PCIe的性能降级更为严重,分别低了62%和70%。:考虑到PCIe设备与CXL设备访问内存协议的不同,以及现有CXL内存池设计难以兼容PCIe设备,LMB内核模块被设计成一座桥梁,提供统一的内存分配和共享接口。本文提出的LMB方案是针对PCIe设备DRAM短缺问题的一次重要探索,通过结合CXL技术,不仅为高性能计算领域带来了新的解决方案,也为未来的存储和计算架构设计提供了新思路。原创 2024-06-25 21:56:43 · 2301 阅读 · 0 评论 -
CXL:拯救NVMe SSD缓存不足设计难题-1
这意味着设备能够利用全局范围的内存资源,而不受制于单一主机的内存限制,从而显著扩展了可用内存容量,减轻了主机应用程序对设备内存的干扰,并促进了由设备驱动的性能提升。内存语义SSD结合了成本效益高的字节寻址DRAM和SSD,用作CPU可访问的缓存,但受限于DRAM容量和缓存命中率,未命中的情况会导致延迟问题。:DRAM的密度增长速度落后于闪存,这意味着即便有技术手段能够克服物理空间的限制,DRAM的增加也无法与快速扩增的闪存容量保持同步,进一步加剧了SSD内部DRAM不足的问题。原创 2024-06-25 21:55:46 · 1425 阅读 · 0 评论 -
三星与SK海力士:以混合键合技术引领3D DRAM革新之路
为了解决这个难题,业内常见的有High Bandwidth Memory (HBM)、Computational In-Memory (CIM)、Emerging Memories(新型存储器)、CXL等技术,它们旨在通过不同的方式(如堆叠封装、计算与存储一体化、采用新材料新机制等)来绕过传统 2D DRAM 的缩放限制,提升存储密度和性能。当前,DRAM模块的连接主要依赖于微凸点技术,而混合键合技术的引入,则通过硅通孔(TSV)实现芯片的垂直堆叠,从根本上消除了对微凸点的依赖,显著降低了芯片厚度。原创 2024-06-20 23:54:08 · 1849 阅读 · 0 评论 -
英特尔MRT技术在互联网大厂的应用案例解读
为此,腾讯采用了Intel内存故障预测(Intel MFP,Memory Failure Prediction)技术,在其基于Intel至强可扩展处理器的数千台服务器上进行测试部署,以减少由服务器内存故障引起的停机时间,提升系统稳定性。:基于Intel MFP的分析,腾讯可以做出更好的决策,如迁移关键工作负载到识别出内存问题的服务器,或者更换故障的DIMM,减少UE事件,提升服务器的可用性和运行时间。它与腾讯现有的管理系统集成,通过分析历史数据预测潜在的内存故障事件,防止潜在的灾难性故障发生。原创 2024-06-10 16:27:20 · 2053 阅读 · 0 评论 -
英特尔MRT技术是什么?
该技术通过多维度模型和算法,从微观层面分析DIMM错误,实时赋予健康评分并预测未来可能出现的故障。通过分析成千上万的现场内存错误日志,构建出预测模型,再与数据中心的实际扫描结果比对,精确定位潜在问题。在多个内存故障预测中,都有提到英特尔MRT技术,那么这个到底是什么,有什么作用。减少不必要的 DIMM 更换和维护工作。根据英特尔官网公开的案例信息显示,减少电子垃圾并延长电子元件寿命。有缺陷的内存部分检测和报告。预测性页面脱机以隔离故障位。原创 2024-06-10 16:26:21 · 592 阅读 · 0 评论 -
首届IEEE RAS峰会,为什么大厂阿里、字节、腾讯都参加了?
在数据中心的运维中,DRAM作为服务器的主要存储资源,因其速度和成本效益而备受青睐。然而,DRAM故障却可能导致计算错误,直接影响服务器的可靠性、可用性和可维护性(RAS),进而威胁数据中心的持续运营。技术进步如量子计算、边缘计算、以及持续增长的数据流量对数据中心的硬件和软件架构提出了更高要求,需要新的策略和技术来应对潜在的故障点,减少停机时间,并简化维护流程。,例如,随机单比特错误可通过ECC修正,其他类型的错误则需采用不同技术,如系统ECC、SDDC、EDAC、PPR及英特尔MRT。原创 2024-06-10 16:25:45 · 1091 阅读 · 2 评论 -
内存故障注入测试
通过故障注入测试,不仅可以验证EDAC模块是否正确地检测到人为制造的内存错误,还能评估系统的错误处理逻辑是否按照预期工作,比如是否正确记录错误、是否采取了适当的响应措施(如记录日志、发送告警等)。获取系统内存的分配情况,选择一个合适的未被占用的地址进行错误注入。这是因为注入错误到系统正在使用的内存区域可能会导致不稳定或崩溃。命令来确认错误是否被正确记录到预期的内存条上,并观察CE计数是否增加。命令获取页面大小,这对于精确控制注入错误的位置非常重要。检查EINJ表的存在与配置:首先,通过查看。原创 2024-06-10 16:24:32 · 1144 阅读 · 1 评论 -
内存EDAC在AMD异构场景的应用
具体到AMD MI200加速器(数据中心GPU)的异构实例中,每个GPU具有两个数据织物网络,每个网络包含四个统一内存控制器(UMC),每个UMC又含有八个通道。在异构系统中,AMD通过将CPU与GPU的数据织物网络通过定制的xGMI链接连接,实现了统一访问,使得GPU节点的数据织物网络如同CPU节点一样可访问。每个GPU节点(例如GPU卡1)下,包含两个MC节点(如mc1与mc2),每个MC节点(如mc1)下有四个UMC(csrow),每个UMC有八个通道,通道与内存大小等信息。原创 2024-06-10 16:23:56 · 544 阅读 · 0 评论 -
内存EDAC的内核支持情况
随着硬件技术的持续创新,预计Linux内核的EDAC支持将会继续演进,为未来的计算平台提供更为强大和灵活的错误检测与纠正解决方案。从Linux 5.x系列开始,EDAC驱动显著增强了对新内存技术的支持,特别是在Linux 5.17和5.18版本中,AMD为即将推出的Zen 4架构处理器进行了深入的准备,增加了对Registered DDR5 (RDDR5) 和 Load-Reduced DDR5 (LRDDR5) 的支持,这标志着EDAC在硬件兼容性上的重大进步。伴随内核支持的增强,用户空间工具(如。原创 2024-06-10 16:23:14 · 552 阅读 · 0 评论 -
内存故障EDAC技术原理
其中,`edac_mc`子系统是内存错误收集的核心,它利用一系列精心设计的函数,如`edac_mc_alloc()`、`edac_device_handle_ce()`、`edac_device_handle_ue()`等,来管理内存控制器报告的CE(Correctable Errors,可纠正错误)和UCE(Uncorrectable Errors,不可纠正错误)。例如,/sys/devices/system/edac/mc/mc0/csrow0/下的文件提供了csrow级别的错误统计和信息。原创 2024-06-10 16:22:35 · 786 阅读 · 0 评论 -
内存故障预测的重要性
在互联网这片无垠的数字疆域里,服务器如同一座座坚不可摧的堡垒,支撑起数据的洪流与应用的风暴。然而,在这辉煌的背后,隐藏着硬件故障的暗流,它们伺机而动,随时可能引发一场灾难性的“数字海啸”。内存,作为服务器的神经中枢,其稳定性至关重要,而内存故障无疑是这场隐秘战中的头号敌人。幸运的是,有这么一位高手——EDAC(Error Detection and Correction),正以其独特的智慧与幽默,为这场战役带来转机。原创 2024-06-10 16:21:48 · 868 阅读 · 0 评论 -
MLC工具是否适用AMD和ARM场景?如何测试内存性能?
然而,需要注意的是,由于MLC的设计初衷和优化方向是针对Intel平台,它可能无法充分利用AMD平台的某些特性和优化,比如AMD的Infinity Fabric架构和Smart Access Memory (SAM)技术。2. ** STREAM Benchmark**:如之前所述,虽然最初是为x86架构设计的,但STREAM也被移植到了多个平台,包括ARM,可以用来测试内存带宽。5. **定制测试程序**:在某些情况下,开发者可能会编写自己的测试程序,利用特定于ARM架构的指令和特性来精确测量内存性能。原创 2024-06-08 22:57:00 · 699 阅读 · 0 评论 -
Stream与MLC测试CPU内存DDR5的原理与方法详解
2. **配置测试参数**:根据服务器的实际配置调整Stream中的数组大小(STREAM_ARRAY_SIZE),以确保测试覆盖整个内存空间,同时考虑到CPU缓存的影响。3. **运行测试**:执行Stream程序,记录Copy、Scale、Add和Triad操作的带宽值,这些数值反映了内存系统的理论最大吞吐量。4. **分析结果**:MLC输出的延迟数据以纳秒(ns)为单位,通过比较不同测试模式下的延迟值,可以评估DDR5内存的性能特征。3. **运行测试**:执行MLC命令,开始测试。原创 2024-06-08 22:54:58 · 832 阅读 · 0 评论 -
Linux环境下测试服务器的DDR5内存性能
执行内存压力测试,例如填满所有可用内存:`stress-ng --vm BYTES --vm-keep N`,其中BYTES是要分配的总字节数,N是并行进程数。例如,测试8GB内存可以尝试:`stress-ng --vm 8G --vm-keep 1`。- 在Linux终端安装Stress-ng(如果未预装):`sudo apt-get install stress-ng` (适用于基于Debian的系统,如Ubuntu)。- 软件自动开始全面的内存测试,显示测试进度和发现的任何错误。原创 2024-06-08 22:39:52 · 785 阅读 · 0 评论 -
一文读懂DDR内存基础知识|值得收藏
DDR SDRAM(Double Data Rate Synchronous Dynamic Random Access Memory,双数据率同步动态随机存储器),简称为DDR, 简单的说就是双倍传输速率的SDRAM。普通SDRAM内存的工作方式是在一个时钟周期的上升沿触发进行工作。也就是说在一个时钟周期内,内存将工作一次。而DDR的技术使得内存可以在每一个时钟周期的上升沿和下降沿分别触发一次,这样就使得在一个时钟周期内内存可以工作两次,这样就使得DDR内存在相同的时间内能够完成普通内存一倍的工作量。转载 2024-06-05 22:56:46 · 2743 阅读 · 0 评论 -
DRAM价格涨势暂停,HBM需求或将推动价格上涨?
2024年4月,基准产品DDR4 8Gb的批发价格(批量交易价)约为每单位1.95美元,而4Gb容量产品的价格则约为每单位1.50美元,两者均与3月份持平,标志着连续第二个月价格稳定。值得注意的是,生成式人工智能所需的关键部件HBM的需求正迅速增加,市场对HBM生产趋势的预期或将促使DRAM价格在未来进一步上涨。报道中另有一消息来源指出,生产HBM所需的设施规模约为普通DRAM的三倍,若HBM产量增加,其他DRAM的生产量将会减少,从而推升价格。原创 2024-05-20 22:51:01 · 428 阅读 · 0 评论 -
万物皆可计算|下一个风口:近内存计算-2
然而,在PIM环境中,由于计算发生在内存内部,直接操作物理地址,因此需要一种有效的地址翻译和映射机制来确保PIM操作能够正确寻址和处理操作数。这要求进行深入的工作负载分析,理解应用程序的访问模式、数据依赖关系、计算特性等,以便精准识别出能被PIM加速的代码段,并设计相应的PIM指令集、编译器优化策略和运行时调度机制。设计者需精心权衡计算与存储资源的配比,优化电路设计,采用低功耗工艺和架构,以及开发先进的散热解决方案,以确保PIM系统在提供高性能的同时,保持良好的能效比和热稳定性。原创 2024-04-19 22:07:19 · 1138 阅读 · 0 评论 -
万物皆可计算|下一个风口:近内存计算-1
这项PIM(Processing-in-Memory)技术将计算功能直接集成到高带宽内存(HBM)芯片内部,实现了数据处理与存储的深度融合,减少数据迁移,通过将部分数据计算工作从处理器转移到内存本身,从而大幅提升AI加速器系统的能效比。随着处理器性能不断提升,其处理数据的速度远超主内存的读写速度,导致处理器经常处于等待数据从内存加载到缓存或从缓存写回内存的状态,这种等待时间占用了大量原本可用于计算的时间,限制了整个系统的性能表现。数据不再需要经过内存控制器、总线和各级缓存,而是直接在内存内部完成计算操作。原创 2024-04-19 22:06:35 · 1434 阅读 · 0 评论 -
白宫敦促开发者弃用C和C++,转而使用“内存安全”的编程语言。
根据TIOBE指数(反映编程语言流行度的指标),在NSA推荐的选项中,C#位于第五位,Java位于第四位,JavaScript位于第六位,Go位于第八位。报告并未明确推荐替代C和C++的具体编程语言,只是强调应该选择并使用内存安全的编程语言,这是美国网络安全和基础设施安全局(CISA)开源软件安全路线图推荐的一种安全设计方式。报告显示,微软安全工程师在2019年指出,约70%的安全漏洞是由内存安全问题引起的,谷歌在2020年针对Chromium浏览器中发现的bug也有相同的统计数据。原创 2024-02-29 21:27:14 · 849 阅读 · 0 评论 -
HBM可以解决冯诺伊曼架构的陷阱吗?
对于需要频繁大量数据交换的应用来说,即使采用了HBM,仍然存在内存容量限制和访问效率的问题,尤其是当数据集规模超过内存容量时,系统仍需依赖较慢的硬盘或其他二级存储设备进行数据交换。为彻底解决冯诺伊曼陷阱,研究人员正在探索新的计算体系结构,比如存储级内存(SCM)、近似计算、基于忆阻器或相变存储器(PCM)的新型非易失性存储与计算融合架构等。这些技术尝试打破传统冯诺伊曼架构的界限,实现计算和存储更紧密的集成,以应对未来更大规模的数据处理挑战。原创 2024-02-20 21:22:43 · 623 阅读 · 0 评论 -
如何解决AI场景下的冯诺伊曼陷阱?
5. AI定制硬件:为了解决AI特定需求,一些研究者甚至提出专门针对AI优化的架构,比如神经拟态计算或类脑芯片,它们尝试模拟人脑的工作模式,可能从根本上改变传统冯诺伊曼架构,让信息处理更加高效且贴近智能的本质。传统的冯·诺伊曼架构下,我们的大脑(CPU)是个勤奋好学的学霸,而存放信息的图书馆(内存)却总是让学霸等待翻阅资料。所以你看,即使冯诺伊曼陷阱设下了重重挑战,但在人类智慧和创新精神的驱动下,我们已经找到了多种有趣且实用的方法来应对,并继续推动着AI向着更高的智能化水平迈进!原创 2024-02-20 21:20:52 · 1094 阅读 · 0 评论 -
计算机中冯诺伊曼陷阱是什么?
为了解决这个问题,聪明的人类工程师们祭出了不少法宝:他们先是给CPU配了个随身小背包(缓存系统),先把常用的包裹放在背包里,减少去仓库跑腿的次数;来一起聊聊这个计算机界的“小尴尬”——冯诺伊曼陷阱。CPU运算速度堪比闪电侠,而内存呢,则像是拖着蜗牛壳的老实人,两者之间的信息传输效率成了制约整个系统性能提升的关键瓶颈,这就是所谓的“冯诺伊曼陷阱”。所以啊,别看冯诺伊曼陷阱现在还在时不时地捉弄我们这些追求极致性能的极客们,但人类智慧的力量可不容小觑,正一步步把这个“陷阱”变成通向更高计算境界的“跳板”!原创 2024-02-20 21:16:41 · 431 阅读 · 0 评论