- 博客(6)
- 收藏
- 关注
原创 LLM部署,并发控制,流式响应(Python,Qwen2+FastAPI)
本文实现了工程实践下并发控制下LLM服务器部署并提供流式响应。使得LLM服务器可以同时处理多个请求,并实现“当请求达到一定数量后,直接拒绝后续的推理请求”功能,防止服务器过载以及排队时间过长影响用户体验(直接告知服务器繁忙)。此外,对于较为复杂的问题(推理复杂、文本过长)生成回答,在并发架构下实现了“边推理便输出内容”的“流式响应”,可有效提高用户体验,优化人机交互实现。使用Python+Qwen2+FastAPI
2024-07-14 21:30:52 3924 9
原创 3050ti、Win10配置Keras2.10(tensorflow-GPU版本)
3050ti、Win10配置Keras2.10(tensorflow-GPU版本)
2024-01-03 19:46:13 1489 3
原创 华为云HECS(云耀云服务器)安装openGauss数据库
在华为云的云耀服务器(Huawei Cloud EulerOS 2.0)安装openGauss(RPM方式,轻量版)
2023-04-11 01:04:44 1533 1
原创 华为云x86_64 openEuler 20.03 64bit 部署Python-web
华为云x86_64 openEuler 20.03 64bit 部署Python-web
2023-02-21 22:43:39 442
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人