【人工智能时代】- LLM 推理和应用开源框架梳理

最新推荐文章于 2024-10-18 11:21:51 发布

xiaoli8748_软件开发

最新推荐文章于 2024-10-18 11:21:51 发布

阅读量1.5k

点赞数 40

分类专栏：人工智能时代文章标签：人工智能开源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoli8748/article/details/142448015

版权

人工智能时代专栏收录该内容

101 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

之前对LLM 推理和应用了解不多，因此抽时间梳理了一下，我们从模型量化，模型推理，以及开发平台等三个层面来梳理分析。

模型量化

模型训练时为了进度，采用的32位浮点数，因此占用的空间较大，一些大的模型需要很大的显存才能加载，且计算推理过程较慢。为了减少内存占用，提升推理速度，可以将高精度的参数转为低精度的参数，例如从 32 位的浮点数转换为 8 位整数，这个技术就叫做模型量化。

模型量化是一种将浮点计算转成低比特定点计算的技术，可以有效的降低模型计算强度、参数大小和内存消耗，但往往带来巨大的精度损失。尤其是在极低比特(<4bit)、二值网络(1bit)、甚至将梯度进行量化时，带来的精度挑战更大。

量化带来的好处

保持精度：量化会损失精度，这相当于给网络引入了噪声，但是神经网络一般对噪声是不太敏感的，只要控制好量化的程度，对高级任务精度影响可以做到很小。
加速计算：传统的卷积操作都是使用FP32浮点，低比特的位数减少少计算性能也更高，INT8 相对比 FP32 的加速比可达到3倍甚至更高
节省内存：与 FP32 类型相比，FP16、INT8、INT4 低精度类型所占用空间更小，对应存储空间和传输时间

了解本专栏

超级会员免费看

xiaoli8748_软件开发

关注

40
点赞
踩
26

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

xiaoli8748_软件开发 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。