June vinvin
simple but not simple
展开
-
大模型精度评测
本文参考opncompass进行大模型的精度评测。原创 2024-04-02 09:25:30 · 56 阅读 · 0 评论 -
大模型推理框架——text-generation-inference
这里model-id可以修改为本地模型路径。原创 2024-04-02 09:14:38 · 250 阅读 · 0 评论 -
大模型推理框架-vllm
项目地址:原创 2024-04-02 09:06:58 · 335 阅读 · 0 评论 -
大模型网络分析
更新中......原创 2024-04-02 08:51:46 · 163 阅读 · 0 评论 -
大模型显存占用分析
注:b表示batch size,第一个2表示k/v cache,第二个2表示FP16占2字节。例:GPT3-175B,模型占用显存:350G(FP16),层数l为96,维度h为12888。假设序列输入长度:s,输出长度:n,数据类型以FP16来保存KV cache。峰值显存占用:b(s+n)h。原创 2024-04-02 08:47:38 · 325 阅读 · 0 评论 -
FasterTransformer编译安装与测试
基础环境:centos7 + cuda10.2+cudnn7显卡:Tesla V100。原创 2023-05-24 14:20:50 · 2010 阅读 · 2 评论