
AI大模型
文章平均质量分 83
小白 ——小黑 ——小金,冲鸭
青苔猿猿
啥都不会,啥都干会!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
vLLM(3)vllm在线启动集成openweb-ui
本文介绍了如何将高性能LLM推理服务vLLM集成到Open WebUI中的详细步骤。首先需要启动vLLM服务,提供OpenAI兼容API接口(端口9898),支持命令行和Docker两种启动方式。然后配置Open WebUI连接vLLM API,可通过修改环境变量或使用docker-compose部署。最后在Open WebUI界面添加模型并验证连接。文章还提供了常见问题解决方法及性能优化建议,如批处理、量化和多GPU加速等,帮助用户实现vLLM与Open WebUI的无缝集成。原创 2025-07-30 16:14:59 · 736 阅读 · 0 评论 -
vLLM(2)私有化安装cuda之libcuda.so找不到问题
本文记录了在A100 4卡服务器上部署vLLM框架时遇到的libcuda.so缺失问题的解决过程。关键点包括:1)确认CUDA 12.8环境和驱动安装;2)分析发现libcuda.so位于/usr/lib/x86_64-linux-gnu/而非CUDA安装目录;3)通过修改LD_LIBRARY_PATH环境变量、创建符号链接和更新ldconfig成功解决问题;4)最终实现Qwen3-0_6B模型在双卡并行下的成功加载。该方案为类似环境下的vLLM部署提供了有效的参考路径。原创 2025-07-30 14:48:00 · 984 阅读 · 0 评论 -
vLLM(1)私有化安装部署配置
vLLM是目前主流的大模型部署框架之一,以其高效的内存管理、持续批处理和张量并行性在企业生产环境中表现突出。该框架通过PagedAttention算法优化KV缓存管理,支持GPU加速和连续批处理,并内置API安全验证功能,同时兼容HuggingFace模型和OpenAI接口。安装过程需创建Python 3.12虚拟环境后直接pip安装即可。后续将重点介绍其多模态应用场景。原创 2025-07-25 11:39:23 · 278 阅读 · 0 评论 -
Ollama(5)服务接口压力测试
本文探讨了企业级Ollama模型服务的性能评估方法。文章首先介绍了企业级应用需要考虑的响应速度、稳定性等关键指标,并对比了Ollama的两种启动方式:手动启动(ollamaserve)适合调试,而systemd服务管理更适合生产环境。重点阐述了压力测试方案,包括测试指标设定、环境配置和代码参数说明,通过REST API接口模拟真实场景,评估系统吞吐量和并发能力。测试结果显示,在4张NVIDIA A10显卡配置下,并发10次请求时平均响应时间17秒,吞吐量达158.06 tokens/s。值得注意的是,测试发原创 2025-07-24 18:01:14 · 1091 阅读 · 1 评论 -
Ollama(4)模型生命周期
keep_alive 在工程化的项目中,往往需要根据请求的频率来设置,如果请求不频繁,可以使用默认值或较短的时间,以便在不使用时释放内存。而如果应用程序需要频繁调用模型,可以设置较长的keep_alive 时间,以减少加载时间。很关键,非常影响服务器的性能和应用程序的用户体验。大家一定要注意。原创 2025-07-24 09:00:00 · 1038 阅读 · 0 评论 -
Ollama(3)模型迁移和API使用
摘要:本文介绍了Ollama模型迁移方法和REST API使用指南。第一部分详细说明模型迁移步骤,重点解析了blobs和manifests文件夹的作用及迁移方法,包括在线下载和离线传输两种方式。第二部分重点讲解Ollama的REST API接口,特别是/api/generate接口的参数配置和使用方法,详细解释了num_ctx、num_predict等关键参数的含义及对模型性能的影响,并提供了Python调用示例和响应参数解析。文章为使用Ollama框架进行大模型本地部署和交互提供了实用技术指导。(149字原创 2025-07-23 16:00:40 · 757 阅读 · 0 评论 -
Ollama(2)安装配置GPU运行
Ollama是在Github上的一个开源项目,其项目定位是:一个本地运行大模型的集成框架,目前主要针对主流的LLaMA架构的开源大模型设计,通过将模型权重、配置文件和必要数据封装进由Modelfile定义的包中,从而实现大模型的下载、启动和本地运行的自动化部署及推理流程。此外,Ollama内置了一系列针对大模型运行和推理的优化策略,目前作为一个非常热门的大模型托管平台,基本主流的大模型应用开发框架如LangChain、AutoGen、Microsoft GraphRAG及热门项目AnythingLLM、Op原创 2025-07-23 13:02:28 · 976 阅读 · 0 评论 -
OpenAI API(2) OpenAI Responses API使用
Responses API 是 OpenAI 为智能代理(Agents)提供的全新 API 基础构件,它结合了 ChatCompletions API 的简洁性 与 Assistants API 的内置工具能力,使得代理能够更智能地执行任务。原创 2025-07-21 15:48:29 · 1141 阅读 · 0 评论 -
OpenAI API(1)补全Responses(Chat Completions)API和记忆Assistants API对比分析
摘要: Chat Completions API与Assistants API的核心差异在于状态管理、文件处理、工具调用等方面。Chat Completions API无状态,需手动维护上下文,适合简单对话任务,延迟低且按Token计费;而Assistants API自动管理对话线程,支持文件解析和内置工具(如代码解释器),适合复杂任务,但延迟较高且可能产生额外费用。选择依据包括是否需要文件处理、多轮对话记忆或预算限制。轻量级交互推荐Chat Completions API,复杂任务则优先Assistant原创 2025-07-21 14:24:02 · 916 阅读 · 0 评论 -
国内企业和教育机构镜像源镜像仓库
很多优秀的开源软件项目的安装包的托管平台(即软件源)都是在国外运营,在国内访问时网络质量和带宽不是很好。在“开源精神”的推动下,宣传自由软件的价值,提高自由软件社区文化氛围,国内很多企业和科研机构建立了免费开放的软件源镜像站,将国内的软件源同步到国内做镜像,以优化国内开发者更好的开源社区参与体验。原创 2025-06-30 16:10:16 · 176 阅读 · 0 评论 -
Ollama(1)知识点配置篇
本文介绍了Ollama模型的安装后配置方法。主要内容包括:1.修改模型下载路径(MacOS/Linux/Windows默认路径及Linux路径修改流程);2.配置访问权限(如何开放远程访问和防火墙设置);3.常用命令汇总(serve/create/run/pull等)。重点详细说明了Linux环境下修改模型存储路径的完整步骤,包括停止服务、创建目录、修改配置文件等操作,以及如何通过修改OLLAMA_HOST实现远程访问。原创 2025-05-30 16:48:37 · 830 阅读 · 0 评论 -
大模型部署ollama/vLLM/LMDeploy/SGLang区别
高效的大型语言模型推理和部署框架,由加州大学伯克利分校开发,采用 Apache 2.0 许可,以 Python/PyTorch 为基础,优化了显存管理与批处理。基于PagedAttention技术的高吞吐推理框架,在NVIDIA/AMD GPU集群上展现卓越性能,支持多节点张量并行。百万并发不是梦!GPU榨干指南# 创建专用环境 conda create -n vllm python=3.12 -y && conda activate vllm。原创 2025-05-23 16:00:57 · 879 阅读 · 0 评论