模型部署——如何提高大模型的线上推理速度


在这里插入图片描述

一、模型部署框架有哪些?

一些常见的部署框架和工具包括 TensorFlow Serving、ONNX Runtime、OpenVINO、TensorRT、TorchScript 等。
例如通过onnxruntime框架优化,可以在原有数据上面测试模型推理速度提升7倍。

二、模型压缩方法有哪些?

  1. 剪枝:剪枝是一种通过去除模型中一些不必要的连接或神经元来减小
    模型大小的技术。
  2. 蒸馏:蒸馏是一种通过使用学生模型来模拟预训练教师模型的行为来 减小模型大小的技术。通常情况下,学生模型由更小的神经网络或线 性模型组成。
  3. 量化:量化是一种将预训练模型中的权重从浮点数转换为低位数的技 术。通常情况下,量化的精度是 8 位或更低。量化可以大大减少模型 的存储空间和计算量,但可能会对模型的性能产生一定的影响。
  4. 权重矩阵分解:使用包括 SVD 等矩阵分解方法对预训练模型的 FFN 层的权重矩阵进行分解,从而减少 Attention 层的参数量,提高模型的 效率。
  5. 模型参数共享:以 ALBERT 为例,模型的 Attention 层之间采用了权 重共享的方式,从而减少了模型的参数量[27] 。
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值