智能计算
文章平均质量分 86
YoungerChina
目前从事存储与计算相关的架构设计和研发管理工作
展开
-
如何基于 Harbor 和 Registry 实现大规模镜像管理分发
Dragonfly 是很多人所推荐的镜像分发工具,但是我没有找到符合场景的案例。Dragonfly 的文档结构并不算很清晰,我理解的 Dragonfly 可以分成两部分:DfdaemonDfdaemon 与 Docker 官方 Registry 的 Mirror 功能类似,用来代理镜像层流量。这一部分是可以单独使用的,并不依赖于其他组件。分发网络分发网络是 Dragonfly 的核心功能,V1 版的组件是 Supernode,V2 版的组件是 Scheduler、Manager 等。转载 2024-07-02 17:08:07 · 181 阅读 · 0 评论 -
Dragonfly 基于 P2P 的文件和镜像分发系统
Dragonfly 是一款基于 P2P 的智能镜像和文件分发工具。它旨在提高大规模文件传输的效率和速率,最大限度地利用网络带宽。在应用分发、缓存分发、日志分发和镜像分发等领域被大规模使用。Dragonfly 面向镜像分发和文件分发,结合 P2P 网络和服务器集群的思想,向用户提供稳定的,高效的下载服务。Dragonfly 希望在服务器内部构建 P2P 网络,将服务器的不同主机节点分为 Manager、Scheduler、Seed Peer 以及 Peer 四个角色,分别提供不同的功能。转载 2024-06-26 10:16:14 · 247 阅读 · 0 评论 -
P2P镜像分发:Harbor+Dragonfly优化k8s集群镜像拉取速度(二)
Dragonfly(蜻蜓)是一款开源的基于 P2P 的智能镜像和文件分发工具。它旨在提高大规模文件传输的效率和速率,最大限度地利用网络带宽。在应用分发、缓存分发、日志分发和镜像分发等领域被大规模使用。是由CNCF(云原生计算基金会)作为孵化级项目(阿里)。转载 2024-06-24 15:14:31 · 293 阅读 · 0 评论 -
P2P镜像分发:Harbor+Kraken优化镜像拉取速度(一)
随着云原生架构被越来越多的企业接受,企业应用中容器集群的规模也越来越大。当容器集群达到一定的规模且单容器应用副本数达到一定级别时,集群中容器镜像的分发将面临挑战。P2P(Peer-to-Peer,点对点)镜像分发借鉴了互联网P2P文件传输的思路,旨在提高镜像在容器集群中的分发效率,以更快的镜像拉取速度来对kubernetes集群进行优化。本篇主要讲述KrakenHarbor的理论部分。转载 2024-06-24 15:06:29 · 238 阅读 · 0 评论 -
数据中心网络:什么是Spine-Leaf架构?
在传统的大型数据中心,采用了层次化模型设计的三层网络。将复杂的网络设计分成几个层次,每个层次着重于某些特定的功能,这样就能够使一个复杂的大问题变成许多简单的小问题。转载 2024-06-20 16:45:28 · 656 阅读 · 0 评论 -
高性能分布式缓存系统 cache
cache项目基于缓存旁路(Cache Aside Pattern)设计,采用了一种独特的双层缓存策略,即首先尝试从本地内存缓存中获取数据,未果则转向全局的Redis缓存。当数据不在任何缓存中时,它将调用加载函数从底层数据库加载数据,并将其存入缓存以备后续快速访问。这一机制确保了即使在极端情况下也能提供高效的缓存服务。转载 2024-06-19 17:22:43 · 125 阅读 · 0 评论 -
探索 Garnet:微软开源的高性能分布式缓存存储系统
微软研究院近期宣布推出一款名为 Garnet 的创新开源分布式缓存存储系统,致力于解决现代应用程序在处理大规模数据时对于高吞吐量、低延迟及卓越可扩展性的严苛要求。这款基于 C# .NET 8.0 构建的新型系统,充分利用了现代硬件能力,为应用程序开发人员提供了加速数据访问与处理的强大工具。转载 2024-06-19 17:20:23 · 242 阅读 · 0 评论 -
英伟达的GDS
英伟达的GDS,即GPUDirect Storage,是英伟达开发的一种技术,它允许GPU直接访问存储设备,从而显著提高数据传输效率和性能。原创 2024-05-15 08:40:20 · 1306 阅读 · 0 评论 -
2024存内社区公开课上线-从底层算力角度,带你入门大模型,这才是开发者该学的课程
来源:https://bbs.csdn.net/topics/618537908转载 2024-04-30 23:28:39 · 180 阅读 · 0 评论 -
Sora爆火,多模态大模型背后的存算思考
随着OpenAI推出Sora,人工智能从文本到文本、文本到图片的生成模式,进阶到文生视频。其文本到视频的模型能够生成长达一分钟的视频,在保持视觉质量的同时并严格遵循用户的提示,使得“扔进一本小说,生成一部电影”的想法成为现实。OpenAI将这一创新描述为构建“物理世界的通用模拟器”,这不仅是一项技术突破,也是人工智能领域探索的又一里程碑。原创 2024-03-13 16:00:00 · 1906 阅读 · 0 评论 -
大模型专题报告:百模渐欲迷人眼,AI应用繁花开
工业革命级的生产力工具。目前,ANI已经广泛应用,AGI处于研发阶段,大模型是实现AGI的重要路径。AI大模型通过预先在海量数据上进行大规模训练,而后能通过微调 以适应一系列下游任务的通用人工智能模型。在“大数据+大算力+强算法”的加持下,进一步通过“提示+指令微调+人类反馈”方式,实现一个模型应用在很多不同领域。原创 2024-03-07 08:48:46 · 1099 阅读 · 0 评论 -
华金证券2024:以“芯”助先进算法,以“算”驱万物智能
大模型技术所带来的突破以及商业化前景促使全球进 入AI竞赛,其中,美国在AI领域依旧担当着创新者和引领者的身份。大模型的发展依托于强大 的算法、庞大的数据量以及巨大的算力支撑,当下大模型逐步从单模态走向多模态,对于以英 伟达GPU为代表的算力需求快速爆发,全球范围内算力芯片的供需缺口一定程度上降低了多模态 大模型的发展速度,但依旧无法阻止AI技术向前演进以及商业化逐步落地,因此而对国内外算 力产业链带来了巨大的发展机遇。原创 2024-03-06 09:25:07 · 416 阅读 · 0 评论 -
中航证券2024 AI智算时代已至,算力芯片加速升级
智算中心的发展基于最新人工智能理论和领先的人工智能计算架构,当前算法模型的发展趋势以Al大模型为代表,算力技术与算法模型是其中的核心关键,算力技术以Al芯片、Al服务器、Al集群为载体。原创 2024-03-06 09:08:19 · 1088 阅读 · 0 评论 -
论文导读:万卡集群训练大模型(by字节跳动)
字节跳动提出了万卡集群大模型训练架构MegaScale,并在12288个GPU上训练一个175B LLM模型时,用MegaScale实现了55.2%的MFU,比Megatron-LM提高了1.34倍;提供了万卡集群训练大模型的踩坑经验;证实了强大完备的训练基础设施(包含各种各样的诊断工具、监测工具、可视化工具等)对高效、稳定训练LLM至关重要;原创 2024-03-05 17:28:34 · 6549 阅读 · 0 评论 -
ChatGPT带火的HBM是什么?
HBM(High Bandwidth Memory)即高带宽存储器,是基于硅通孔(TSV)和微凸点(Microbump)技术将多个DRAMdie和Logicdie堆叠而成的具有三维结构的存储产品。原创 2024-02-26 10:49:56 · 1720 阅读 · 0 评论 -
从ChatGPT到Sora,来了解大模型训练中的存储
清华大学舒继武团队分析了大模型训练的存储挑战,指出大模型训练的存储需求大,且具有独特的计算模式、访存模式、数据特征,这使得针对互联网、大数据等应用的传统存储技术在处理大模型训练任务时效率低下,且容错开销大;分别阐述了针对大模型训练的3类存储加速技术与2类存储容错技术;并进行了总结和展望。原创 2024-02-24 23:22:19 · 3270 阅读 · 0 评论 -
聊透 GPU 通信技术——GPU Direct、NVLink、RDMA
最近人工智能大火,AI 应用所涉及的技术能力包括语音、图像、视频、NLP 等多方面,而这些都需要强大的计算资源支持。AI 技术对算力的需求是非常庞大的,虽然 GPU 的计算能力在持续提升,但是对于 AI 来说,单卡的计算能力就算再强,也是有极限的,这就需要多 GPU 组合。而 GPU 多卡的组合,主要分为单个服务器多张 GPU 卡和多个服务器,每个服务器多张卡这两种情况,无论是单机多卡还是多机多卡,GPU 之间需要有超强的通信支持。接下来,我们就来聊聊 GPU 通信技术。转载 2024-02-22 11:32:28 · 961 阅读 · 0 评论 -
存内计算的主流技术方案
存内计算直接使用内存单元做计算,主要利用电阻和电流电压的物理关系表达运算过程。存内计算依赖于新型的非易失性存储器,如 ReRAM和 PCM 等。原创 2024-02-22 01:30:00 · 2159 阅读 · 0 评论 -
近数据计算的主流技术方案
近数据计算中逻辑层的设计较为灵活,可以针对不同系统的需求设计通用的处理器或者专用的加速器。在设计针对通用应用的近数据计算系统时,由于放到内存端的通用处理器一般性能较弱,需要考虑自动化地分割应用程序的计算部分,把能从近数据计算中获益的部分放到内存中处理.在设计针对特定类型应用的近数据计算系统时,需要仔细分析应用特点,抽取算子,设计对应的数据流. 除了逻辑层的设计,近数据计算系统结构设计还需要考虑:各个内存块之间的连接方式,包括通信方式和数据一致性协议、数据映射策略、与现有系统集成方式、软硬件接口设计。原创 2024-02-22 00:30:00 · 1913 阅读 · 0 评论 -
内存计算:起源、架构、挑战与机遇
在数据爆炸时代,内存计算技术为解决传统冯•诺依曼架构中总线拥堵问题以及片上片下数据传输能耗过高问题提供了解决方案.内存计算技术得益于新型3D 堆叠技术和非易失存储技术的发展。原创 2024-02-21 00:45:00 · 1378 阅读 · 0 评论 -
智能计算: 最新进展、挑战和未来(九名院士、12位专家)
计算是人类文明发展的一个重要推动力。近年来,我们见证了智能计算的出现,在大数据、人工智能和物联网时代,智能计算作为一种新的计算范式,正在重塑传统计算,以新的计算理论、架构、方法、系统和应用推动数字革命。转载 2024-02-20 11:05:55 · 637 阅读 · 0 评论 -
内存计算研究进展- 针对图计算的近数据计算架构
针对图计算的近数据计算架构的代表性工作有: Seoul National University的 Tesseract和 Georgia Institute of Technology 的 GraphPIM,具体如下。原创 2024-02-21 00:45:00 · 412 阅读 · 0 评论 -
内存计算研究进展-针对机器学习的近数据计算架构
针对机器学习的近数据计算架构代表性工作有: Georgia Institute of Technology的BSSync (bounded staled sync) 和 Neurocube,Advanced Micro Devices 的 CoML,具体如下。原创 2024-02-21 00:15:00 · 1998 阅读 · 1 评论 -
内存计算研究进展-通用的近数据计算架构
TOM的提出是为了解决大数据时代GPU与主存之间带宽小的问题,除了通过编译器静态分析代码块并选择合适的代码块放到内存计算中执行之外,TOM还分析预测了哪些数据会被放到内存计算中的代码块访问,并将这些数据放在相应代码块执行的NDC cube中,以此来减少各个NDC cube之间的通信. TOM中的代码分析和数据映射都对上层透明,程序员可非常方便地使用内存计算.实验显示,TOM平均能提高GPU的主流应用30%的性能。实验表明,在22nm的工艺下,TOP-PIM可以减少76%的能耗,且仅带来27%的性能损失。原创 2024-02-20 04:15:00 · 1832 阅读 · 0 评论 -
内存计算研究进展-技术架构
内存计算技术是一个宏观的概念,是将计算能力集成到内存中的技术统称。集成了内存计算技术的计算机系统不仅能直接在内存中执行部分计算,还能支持传统以CPU为核心的应用程序的执行。,常用于嵌入式设备中,针对一类特定的应用设计,不能处理其他应用程序。内存计算包括两大类:近数据计算和存内计算。两者的关系如图4 所示,它们在形式上不同,但是在特定场景下可以融合设计。,而,计算和存储紧耦合.下面将从硬件结构和所支持的计算操作两个方面具体介绍近数据计算和存内计算相关技术。原创 2024-02-20 00:15:00 · 1657 阅读 · 0 评论 -
内存计算研究进展-提出与兴起
数据驱动的应用迅猛发展以及数据量指数级暴增驱动了内存计算的发展,并且新型存储器件的快速发展为内存计算提供了技术保障。因此,内存计算在2010年后兴起。原创 2024-02-19 12:20:30 · 998 阅读 · 0 评论 -
【芯片论文】存内计算(CIM)与近存计算(CNM)论文总结
本文总结了存内计算(CIM:Computing In Memory)、存内处理(PIM:Processing In Memory)、近存处理(PNM:Processing Near Memory)、近存计算(PNM:Computing Near Memory)领域的一些论文,可作为研究、学习、开发的参考资料。原创 2024-02-07 04:15:00 · 2462 阅读 · 0 评论 -
MRAM存内计算:现状及挑战
随着人工智能、物联网、智能传感等应用的快速兴起,数据以爆发式的速度增长。海量数据的高效存储、迁移与处理成为当前信息领域的重大挑战。受限于经典的冯诺依曼计算架构存储与处理分离的特性,在面向大数据分析等应用场景中,数据总线的带宽严重制约了处理器的性能与能量效率,并且数据的频繁迁移带来严重的传输功耗问题。存内计算架构在此基础上应运而生。通过赋予存储器计算功能,以数据为中心,避免不必要的数据频繁搬运,降低系统的功耗和延时。原创 2024-02-07 00:45:00 · 2111 阅读 · 0 评论 -
近存计算与内存计算
近存计算 (near memory computing) 和存内计算 (in-memory computing) 有时可以互换使用并且容易混淆。本章旨在阐明各种近存和存内计算方法的分类,并对每类内存驱动方法的显著特征进行比较。另外,可计算内存设备可以被实现为独立加速器设备或替换当前内存层次中的内存模块。我们将探讨每种方法带来的好处和挑战。原创 2024-02-06 15:45:26 · 1780 阅读 · 0 评论 -
存算一体:架构创新,打破算力极限
在全球数据量呈指数级暴涨,算力相对于AI运算供不应求的现状下,存算一体技术主要解决高算力带来的高能耗成本矛盾问题,有望实现降低一个数量级的单位算力能耗,在功耗敏感的高能耗数据中心、自动驾驶等领域有望发挥其低功耗、低时延、高算力密度等优势。原创 2024-02-03 20:59:45 · 2254 阅读 · 1 评论 -
计算存储设备(Computational Storage Drive, CSD)
计算存储SSD(CSSD)的发展并未如早期倡导者所预期那样推进。尽管一些公司曾积极推广将该架构用作可编程设备,但实际增长点似乎更多地来自不同应用场景。部分早期进入该领域的厂商已退出市场,而另一些则在竞争中存活下来。原创 2024-02-02 18:20:14 · 1340 阅读 · 0 评论 -
存内计算——发展史与近期成果
存内计算的概念早在上个世纪就已经被提出,但当时的人们寄希望于通过优化处理器设计以及工艺制程的升级,来获得性能和能效比的提升,存内计算的研究仅停留在理论阶段。随着大数据时代的到来,存内计算由于其结构特点以及摩尔定律的“失效”,被认为是提升处理器能效和性能以及加速神经网络运算的新出路。接下来我们将从存内计算的源头出发,介绍它的发展史与近期取得的成果。原创 2024-02-01 09:02:32 · 1785 阅读 · 0 评论 -
关于“算力”,这篇文章值得一看
根据罗兰贝格的预测,从2018年到2030年,自动驾驶对算力的需求将增加390倍,智慧工厂需求将增长110倍,主要国家人均算力需求将从今天的不足500 GFLOPS,增加20倍,变成2035年的10000 GFLOPS。这些需求,既有来自消费领域的(移动互联网、追剧、网购、打车、O2O等),也有来自行业领域的(工业制造、交通物流、金融证券、教育医疗等),还有来自城市治理领域的(智慧城市、一证通、城市大脑等)。万物智联时代的到来,大量智能物联网终端的引入,AI智能场景的落地,将产生难以想象的海量数据。原创 2023-08-14 01:02:21 · 529 阅读 · 0 评论