PowerInfer-2高速推理引擎

自不量力的A同学

已于 2024-06-17 11:56:46 修改

阅读量84

点赞数

文章标签： python

于 2024-06-17 11:55:41 首次发布

原文链接：https://gitee.com/mirrors/PowerInfer

版权

高速推理引擎 PowerInfer-2

专为手机设计的最强高速推理引擎 PowerInfer-2，每秒 11.68 token，比其它最强快 22 倍，来自上海交通大学 IPADS

PowerInfer-2 是专为智能手机设计的高度优化的推理框架。PowerInfer-2 最多支持 Mixtral 47B MoE 模型，实现每秒 11.68 个令牌的惊人速度，比其它最先进的框架快 22 倍。即使对于 7B 型号，仅将 FFN 权重的 50% 放置在手机上，PowerInfer-2 仍然保持最先进的速度！
在这里插入图片描述

PowerInfer-2 的速度很快：

异构计算：将粗粒度的矩阵计算分解为细粒度的 “神经元簇”，然后根据不同硬件组件的特性动态调整这些簇的大小。
I/O 计算管道：神经元缓存和细粒度神经元簇级管道技术旨在最大化神经元加载和计算之间的重叠。
PowerInfer-2 的一个显著优势是其内存使用量显著减少。对 TurboSparse-Mixtral 模型施加了各种内存限制的情况下，比较 PowerInfer-2、LLM in a Flash 和 llama.cpp 的解码速度。结果清楚地表明，PowerInfer-2 明显优于其它框架。

PowerInfer-2 的另一个优势是其推理速度的提升。无论是在全内存场景还是卸载场景中，PowerInfer-2 的表现都远远优于其它框架，尤其是在智能手机上。

对于 7B LLM，PowerInfer-2 的技术可以节省近 40% 的内存使用量，同时实现与 llama.cpp 和 MLC-LLM 一样快的推理速度。

使用不同的卸载设置对 TurboSparse-Mistral-7B 上的 PowerInfer-2、llama.cpp 和 MLC-LLM 进行解码的速度。“50% 卸载” 表示 FFN 块的 50% 模型权重被卸载到闪存中。“无卸载” 表示所有模型参数都驻留在内存中。红色标签 ⨉ 表示由于缺乏权重卸载支持而导致执行失败。

自不量力的A同学

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PowerInfer-2高速推理引擎

使用不同的卸载设置对 TurboSparse-Mistral-7B 上的 PowerInfer-2、llama.cpp 和 MLC-LLM 进行解码的速度。对 TurboSparse-Mixtral 模型施加了各种内存限制的情况下，比较 PowerInfer-2、LLM in a Flash 和 llama.cpp 的解码速度。对于 7B LLM，PowerInfer-2 的技术可以节省近 40% 的内存使用量，同时实现与 llama.cpp 和 MLC-LLM 一样快的推理速度。
复制链接

扫一扫

自不量力的A同学 CSDN认证博客专家 CSDN认证企业博客

码龄4年

151: 原创

9555: 周排名

1万+: 总排名

8万+: 访问

: 等级

2492: 积分

761: 粉丝

864: 获赞

14: 评论

615: 收藏

私信

关注

热门文章

分类专栏

科技要闻 22篇
数据库 2篇
java 2篇
Linux开发相关 6篇
java基础 2篇
IDEA 1篇
shell 3篇

最新评论

Oracle 是否扼杀了开源 MySQL
ha_lydms: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
贝叶斯推断的原理
weixin_44189802: 讲的很透彻
数据库系统
征途黯然.: 对数据库系统的解释真的很好！我学到了很多新东西。
数据库系统
百锦再@新空间代码工作室: 作者的写作风格很引人入胜，每个段落都能够清晰地传达作者的观点。尤其是在描述实际案例时，作者运用生动的词语和形象的比喻，让读者如同身临其境。这种融合了事实和情感的写作风格真正打动了我。
华为 HarmonyOS 中国市场份额一季度超越苹果 iOS
乱骑扒糟开心就好: 连看个教程都要是会员……

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。