- 博客(9)
- 资源 (3)
- 收藏
- 关注
原创 lmdeploy量化之Key-Value(KV) Cache 量化
摘要:KV Cache量化是一种优化大模型推理显存占用的技术,通过量化transformer结构中的KV缓存值而非模型参数,有效提升并发性能。LMDeploy支持int8(精度无损)和int4(精度可接受)两种KV量化方式,无需校准数据,兼容Volta及以上架构显卡。实验显示,在Llama2-7B模型上应用int8/int4 KV量化可使RPS分别提升30%和40%。使用LMDeploy时只需设置quant_policy参数(4为int4,8为int8),即可轻松应用于离线推理和服务部署场景。该技术特别适合
2025-11-18 09:05:30
194
原创 OpenCompass文档
摘要:OpenCompass是一个开源评估工具,用于测试语言模型性能。安装过程包括:1)使用Conda创建Python 3.10环境;2)克隆GitHub仓库并安装;3)下载并解压所需数据集。评估支持命令行配置和文件配置两种方式:可指定HuggingFace模型路径和测试数据集,或通过Python配置文件定义模型和数据集组合。系统支持选择题(MCQ)和问答题(QA)两种数据格式,并能自动识别数据类型。用户可通过命令行直接评估自定义数据集,灵活选择评估方法(生成式或判别式)。该工具提供了模型和数据集配置的查看
2025-11-17 10:15:52
449
原创 情绪对话模型项目实施流程总结
摘要:本项目实施情绪对话模型分为数据准备、模型选型、训练评测和部署应用四个阶段。创新采用AI辅助生成结合严格清洗的数据准备策略,通过XTuner框架实现支持主观评测的模型训练,最终选用LMDeploy实现高效部署。项目特色包括基于相似度计算的数据去重、针对情绪对话优化的训练方案,以及适用于低延迟场景的部署方案,形成从数据生产到服务落地的完整闭环解决方案。评测环节采用OpenCompass平台的多维度评估体系,确保模型在知识、推理等多方面能力达标。
2025-11-17 09:56:41
731
原创 Retrieve 检索进阶
本文介绍了检索增强生成(RAG)系统的工作流程,主要包含两个阶段:知识库构建和查询检索。首先将原始数据通过embedding技术转化为向量知识库,为模型提供上下文边界。在查询阶段,系统通过多种检索方法(如相似度过滤、关键词筛选等)获取相关知识片段,结合大模型的理解能力生成回答。此外,详细说明了LlamaIndex提供的响应合成器(Refine、Compact等)和检索器(SimilarityPostprocessor等)功能模块。该系统通过整合外部知识库与大模型能力,有效解决了模型幻觉问题,提升了回答的准确
2025-11-06 00:05:17
231
原创 安装英伟达cuda驱动
摘要:Windows系统安装CUDA需先检查显卡支持的CUDA版本,下载对应Toolkit安装包并执行安装。安装时建议选择自定义安装模式,注意保留默认安装路径。需配置CUDA_PATH等环境变量,并通过nvcc -V命令验证安装。如需深度学习支持,还需安装匹配版本的cuDNN。注意事项包括避免安装时覆盖驱动、正确处理多版本切换,以及确保安装路径与临时解压路径不同。安装成功后可运行demo测试程序验证功能。
2025-11-05 14:08:01
370
原创 AI框架-LlamaIndex
摘要:LlamaIndex是一个开源框架,用于构建本地知识库。它提供多种数据加载方式(SimpleDirectoryReader、LlamaParse、WebReader),支持PDF、HTML等格式,并能将文档切分为节点(Node)。通过TextSplitters(TokenTextSplitter等)和NodeParsers(HTMLNodeParser等)处理不同结构的文档。核心功能包括索引构建(VectorStoreIndex)和向量检索,支持相似度查询并返回指定数量的结果。安装简单(pip ins
2025-11-05 10:48:04
313
原创 第1章 嵌入模型与向量数据库
摘要:向量表征是AI领域的核心概念,通过将文本、图像等数据转化为高维向量(Embedding),实现复杂信息的数学化处理。其本质是对对象进行降维抽象并度量相似性,支持特征工程自动化和跨模态统一。典型应用包括NLP(词向量、句向量)、CV(图像特征提取)、推荐系统和复杂系统建模。技术实现涵盖无监督学习(Word2Vec)和有监督学习(BERT),前沿方向包括对比学习和多模态融合。主流嵌入模型分为通用型(BGE-M3)、垂直领域型(BGE-large-zh)和轻量化型(nomic-embed-text),适用于
2025-11-04 22:20:22
214
原创 AI应用开发-环境准备
Conda是一个跨平台的包和环境管理工具,支持创建隔离的Python环境。Anaconda是包含众多科学计算包的发行版,而Miniconda是精简版本仅包含基础组件。Conda通过虚拟环境解决项目间的包冲突问题,常用命令包括环境创建(conda create)、切换(conda activate)、包管理(pip install)等。还支持环境导出导入(conda env export/create)。配合JupyterLab使用时需安装ipykernel并在notebook中添加环境。PyCharm中也可
2025-11-04 22:11:08
929
原创 前端转型AI应用开发
学完可直接在 CSDN 发布 “学习笔记”,绑定 #前端 AI# 话题,增加大厂 HR 曝光!(内置 Bun.js+LangChain + 示例代码,打开即练)(注:沙盒含系列课专属 “AI 表单生成”“智能客服挂件” 实战模板):每个项目均可拆解为 “技术点 + 成果”(如 “接入 LLM 生成表单,提效开发 30%”)。:用 “驾驶汽车” 类比 AI 开发,跳过数学公式,聚焦 “如何让网页变智能”。:所有案例围绕 UI 交互、组件生成、端侧优化,拒绝 “假大空” 的后端逻辑。
2025-09-21 22:20:09
683
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅