- 博客(2)
- 收藏
- 关注
原创 vllm部署qwen1.5
此镜像需要自己安装vllm,也可拉取官方镜像,但只可开启类openai api服务。部署openai风格的 api服务。
2024-04-18 16:38:25
1014
1
原创 Tensorrt-llm加速qwen1.5-14b-chat推理
设置为inflight_fused_batching用于开启流推理,设置inflight_batching 需要转换模型时设置use_inflight_batching 和 paged_kv_cache ,默认为 v1;,将表格里面的变量填好(文件 triton_model_repo/tensorrt_llm/config.pbtxt),比如batch_size,是否开启流等,每个版本略有不同,可以自行斟酌,此处不再过多论述。hf_model_dir : 本地模型的路径。
2024-04-10 15:26:13
1000
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人