![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能
文章平均质量分 91
牛码当驴
这个作者很懒,什么都没留下…
展开
-
【论文阅读】Efficient Memory Management for Large Language Model Serving with PagedAttention
高吞吐量的LLM服务需同时处理多个请求。但是现有系统非常困难,因为KV cache非常巨大并且是动态伸缩的,因为显存管理不善,导致碎片和重复,造成显存的巨大浪费,从而限制了batch的大小和吞吐量。为了解决这个问题,本文借鉴操作系统的分页内存管理方法,提出了PagedAttention。基于这个方法,实现了vLLM,它能够实现:1) 接近零的KV cache浪费;2) 同一请求内和不同请求间KV cache的灵活共享。实验证明本方法的吞吐量是SOTA系统的2-4倍。原创 2024-07-17 20:38:08 · 1119 阅读 · 0 评论 -
Transformer学习笔记
可以节省多少运算量?假设有一批输入序列,数量为b个,每个序列由N个生成的tokens和t个输入的tokens(总长度为 N+t)组成。对于这些序列的前 t+N-1 个 tokens,计算 KV 值是冗余的,也就是说,在生成步骤的第 N 步,我们可以为每个序列节省 t+N-1 次 KV 计算。如果不重新计算,那么在前 N 个生成步骤中,每个序列总共可以节省 N.t+N.(N-1)/2 次 KV 计算。通过 KV 缓存节省的运算数量与生成的 tokens 数量的平方成正比。原创 2024-07-17 20:34:10 · 1125 阅读 · 0 评论 -
【论文阅读】Characterization of Large Language Model Development in the Datacenter
大语言模型(LLMs)在许多任务中表现出色。然而,要高效利用大规模集群资源开发LLM并非易事,常常伴随着频繁的硬件故障、复杂的并行化策略和资源利用不平衡等诸多挑战。为此,我们针对Acme GPU数据中心在为期六个月的LLM开发工作负载中所累积的跟踪数据,进行了一次深入的特征分析研究。我们特别探讨了LLM与以往深度学习(DL)工作负载之间的差异,研究了资源利用模式,分析了各种任务失败的影响,总结了所遇到的难题,并揭示了优化LLM系统的潜在机会。原创 2024-07-10 17:02:08 · 1072 阅读 · 2 评论 -
【论文阅读】THEMIS: Fair and Efficient GPU Cluster Scheduling
AiGiPi⋅)RGGi{01}PiPi⋅)P≤1P1−ff∈01)ikkPKiPiN1PiNCPTidTshTidTshP≤1调度架构分为两个级别,包括多个应用程序调度器和一个称为ARBITER的跨应用程序调度程序:PPf∈01。原创 2024-03-11 19:27:57 · 1279 阅读 · 0 评论 -
Ubuntu20.04安装conda和pytorch
在Ubuntu 20.04上安装Anaconda 3 ,创建虚拟环境并安装pytorch。并指出一些常见的问题并给出解决办法。主要问题有,下载Aanconda后无法激活环境。pytorch版本和C湖大版本不匹配。原创 2024-01-27 18:56:53 · 1648 阅读 · 1 评论 -
【强化学习】使用Q-Learning 和 Sara 解决GridWorld 炸弹环境
使用Q-Learning 和Sara算法解决GridWorld炸弹环境,分为两个类:gridWorld.py和Agent.py:环境类:继承gym.Wrapper,主要实现了render(显示每次的地图)。step(和环境交互,计算奖励值)Agent类:包括两种算法,主要实现了learn(学习方法,每次更新Q-table)predict(根据输入的观察值,预测输出的动作)。sample(根据输入的观察值,采样输入的动作)整体步骤为,首先根据grdiWordl创建出环境,每次机器人根据环境选择动作并更新原创 2024-01-27 18:51:39 · 646 阅读 · 0 评论 -
决策树原理详解
使用的例子:人员眼睛颜色头发颜色所属人种1黑色金色白种人2蓝色黑色黄种人3灰色金色白种人4蓝色金色白种人5灰色金色白种人6黑色黑色黄种人7灰色黑色黄种人8蓝色黑色黄种人决策树的基本思想是从一颗空的决策树开始,选择某一属性作为测试属性,该测试属性对应决策树中的决策顶点,再在剩下的数据集上递归选择另一属性建立决策顶点。一。决策树学习算法大体上可以分为两个阶段:建模阶段和预测阶段建模阶段可原创 2021-11-30 10:40:37 · 877 阅读 · 0 评论 -
TFIDF的原理及实现
【算法原理】TFIDF由TF和IDF相乘而来,TF是指某个单词在一个文档中出现次数归一化后的结果;IDF是一个单词普遍重要性的度量。它基本原理是单词的重要性随着它在文档中出现的次数而增加,随着它在所有文档中出现的频率而下降。one-hot矩阵是单词编码的一种方式,它先根据单词在所有文档中的出现顺序建立一个词汇表,然后每个文档对应one-hot矩阵的一行,每行长度为词汇表的大小。根据词汇表中每个单词是否出现在某一篇文档中,如果出现,对应的位置就为1,否则为0。但one-hot矩阵只表示某个单词是否在文档原创 2021-11-11 20:19:30 · 2105 阅读 · 0 评论