![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
文章平均质量分 74
牛码当驴
这个作者很懒,什么都没留下…
展开
-
【论文阅读】Efficient Memory Management for Large Language Model Serving with PagedAttention
高吞吐量的LLM服务需同时处理多个请求。但是现有系统非常困难,因为KV cache非常巨大并且是动态伸缩的,因为显存管理不善,导致碎片和重复,造成显存的巨大浪费,从而限制了batch的大小和吞吐量。为了解决这个问题,本文借鉴操作系统的分页内存管理方法,提出了PagedAttention。基于这个方法,实现了vLLM,它能够实现:1) 接近零的KV cache浪费;2) 同一请求内和不同请求间KV cache的灵活共享。实验证明本方法的吞吐量是SOTA系统的2-4倍。原创 2024-07-17 20:38:08 · 1113 阅读 · 0 评论 -
【论文阅读】Characterization of Large Language Model Development in the Datacenter
大语言模型(LLMs)在许多任务中表现出色。然而,要高效利用大规模集群资源开发LLM并非易事,常常伴随着频繁的硬件故障、复杂的并行化策略和资源利用不平衡等诸多挑战。为此,我们针对Acme GPU数据中心在为期六个月的LLM开发工作负载中所累积的跟踪数据,进行了一次深入的特征分析研究。我们特别探讨了LLM与以往深度学习(DL)工作负载之间的差异,研究了资源利用模式,分析了各种任务失败的影响,总结了所遇到的难题,并揭示了优化LLM系统的潜在机会。原创 2024-07-10 17:02:08 · 1068 阅读 · 2 评论 -
【论文阅读】Energy Efficient Real-time Task Scheduling on CPU-GPU Hybrid Clusters
主要工作:通过动态电压和频率缩放研究了新兴CPU-GPU混合集群的节能问题。 + 首次分析GPU特定的DVFS模型。 + 设计了一种新的调度算法:1)利用GPU DVFS来节省能源而不违反任务期限;2)有效将一组任务打包到多个服务器上,以减少动态能耗;3)智能调节DVFS设定,更有效地节省能源。 + 仿真测试,可以节省多达36%的能耗。原创 2024-03-16 17:14:24 · 580 阅读 · 0 评论 -
【论文阅读】MICCO: An Enhanced Multi-GPU Scheduling Framework for Many-Body Correlation Functions
首先对数据重用和负载平衡的相互作用进行了全面的研究,并提出了局部重用模式和重用边界两个新概念,研究两者之间实现最佳权衡的机会。在此基础上,MICCO提出了一种启发式调度算法和一种基于机器学习的回归模型来生成重用边界的最优设置。原创 2024-03-16 17:05:35 · 471 阅读 · 0 评论 -
【论文阅读】Mystic: Predictive Scheduling for GPU Based Cloud Servers Using Machine Learning
提出一个干扰感知调度器Mystic,用于在基于GPU 的集群和云服务器上高效地协同执行应用程序。Mystic识别新应用程序和正在执行的应用程序之间的相似之处,并指导调度器将干扰最小化并提高系统吞吐量。原创 2024-03-14 09:50:46 · 457 阅读 · 0 评论 -
【论文阅读】
Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads 论文阅读笔记,主要工作是描述了Microsoft中一个多租户GPU集群两个月的工作负载特征,研究影响多租户集群上DNN训练工作负载的集群利用率的三个问题:+ 队列调度和局部性约束对队列的影响。+ 局部性对GPU利用率的影响。+ 训练期间的故障问题。原创 2024-03-13 13:52:23 · 490 阅读 · 0 评论