
【LLM大模型】
文章平均质量分 93
在当今人工智能技术飞速发展的时代,大模型应用开发已成为众多企业和开发者关注的焦点。本系列将围绕大模型应用开发的基础知识和实战技巧进行深入探讨,帮助开发者更好地掌握这一领域的核心技能
小小工匠
show me the code ,change the world
展开
-
LLM - Token、CONTEXT LENGTH、MAX OUTPUT TOKENS扫盲
Token= 字/词,是计费单位。上下文长度= 模型单次处理的“总内存”(输入+输出≤64K)。最大输出= 模型单次回复的“字数上限”(≤8K)。举个栗子🌰你输入5万字(50K tokens),模型最多只能输出1.4万字(14K tokens),因为50K + 14K = 64K(不能超)。如果让它输出2万字?不行!因为单次回复上限是8K(约8000字)。实际建议✅长文本处理:先压缩(比如摘要关键部分),再让模型分析。✅多轮对话:重要信息放最后(避免被截断)。✅生成长内容。原创 2025-03-30 11:48:10 · 1924 阅读 · 0 评论 -
LLM - AI四件套 : 大模型、RAG、AI AGENT 、Workflow
十年前,如果有人跟你说"电脑能像人一样写文章、解答难题,还能自己安排工作",你肯定觉得他在吹牛。毕竟,会用ChatGPT的人已经淘汰了不用的人,而会用Agent+工作流的人,正在淘汰只会ChatGPT的人。——知识停留在训练截止日(比如GPT-4只学到2023年),问它“2024年欧冠冠军是谁”,它能给你编个皇马vs拜仁的精彩战报,但其实压根没这比赛!以前的人工智能像偏科生——训练一个只会翻译,另一个只会算数,每个AI都只会一门手艺。现在所有AI应用都在这个"学霸大脑"上做加减法,这才是真正的范式革命。原创 2025-03-30 10:56:31 · 2367 阅读 · 0 评论 -
RAG - 五大文档切分策略深度解析
在RAG(检索增强生成)系统中文本切分策略对检索效果和生成质量至关重要。我们来看下RAG五大核心切分策略及其特点。原创 2025-03-29 23:49:41 · 2106 阅读 · 0 评论 -
LLM - 白话Rerank模型
不同于初检阶段的粗粒度筛选,Reranker会综合评估语义相关度(如问题与内容的深层匹配)、时效性(优先最新资料)、权威性(区分专家论述与普通观点)以及内容完整性(覆盖关键要素的程度)等多个核心维度,通过算法加权计算出每个结果的最终排序得分。Col-BERT是一种用于高效信息检索的模型,它结合了基于表示和基于交互的检索方法的优点。在企业级应用中, 这种智能排序机制有效解决了传统检索中面临的长尾问题、语义鸿沟等挑战,大幅提升了知识库的可用性和准确性,是确保专业用户获得高价值信息的关键技术保障。原创 2025-03-26 22:44:14 · 1779 阅读 · 0 评论 -
LLM - 重排序(Rerank)
重排序模型虽然速度较慢,但其在精准度上的优势使其成为现代检索系统中不可或缺的一环。通过两阶段检索策略,我们可以在第一阶段快速召回候选文档,然后在第二阶段通过重排序模型进行精细排序,这种策略在处理复杂的问答任务和生成任务时尤为重要,因为它能够确保最终返回的文档不仅数量适中,而且相关性更高,从而在效率与精准度之间找到最佳平衡。原创 2025-03-22 22:42:42 · 2175 阅读 · 0 评论 -
LLM - CentOS上离线部署Ollama+Qwen2.5-coder模型完全指南
如果没有显卡,就不要折腾了,线上服务器16Core 32G内存, 无显存。实测部署了个qwen2.5-coder 7B的模型, 对话延时400多秒…上图就是两个文件,下面就要进行模型文件合并。返回后,ollama ps (以0.5b的为例)就可以看到了(我之前看不到,以为有问题)其他的模型,也可以按照上面的方式来安装,别浪费了你的卡子, 赶紧私有化起来吧 ‘ollama 提供了丰富的命令行工具,方便用户对模型进行管理。把原来的软连接删除,上传新的,重新软连一下 即可。,即阿里云通义千问模型的第二代架构。原创 2025-03-22 14:00:04 · 2788 阅读 · 0 评论 -
LLM - Docker安装Dify导致C盘爆满
通过上述方法可灵活应对Docker导致的C盘空间问题。推荐长期方案为方法1(迁移存储路径)配合定期清理,既能保证开发效率,又避免系统盘爆满 .原创 2025-03-18 04:45:00 · 1924 阅读 · 0 评论 -
LLM - Docker离线部署Dify:从镜像打包到无网环境部署
通过本篇博客的详细步骤,即使在没有互联网接入的隔离环境中,也能快速部署Dify服务。这种基于Docker的离线部署方案同样适用于其他容器化应用,为企业的安全部署提供了可靠的技术路径。docker logs -f <容器ID>原创 2025-03-17 07:15:00 · 7364 阅读 · 6 评论 -
LLM - Dify Docker镜像拉取失败的解决办法
通过替换国内镜像源,可显著提升Dify镜像拉取成功率。使用单独拉取失败镜像。检查防火墙或DNS设置。原创 2025-03-17 04:45:00 · 3277 阅读 · 0 评论 -
LLM - 深入解析Embedding模型工作原理
例如,图像可能会缩小为 512 维向量,在不保留完整分辨率的情况下捕获其主要特征。Embedding模型是将文本数据转换为向量表示的核心工具。这些向量表示能够捕捉文本的语义信息,广泛应用于文本分类、信息检索、问答系统等任务。在自然语言处理(NLP)领域,Embedding模型扮演着将文本映射到高维向量空间的核心角色,其质量直接影响语义搜索、文本分类等任务的性能。检索增强生成(RAG)是生成式 AI 中的一类应用,支持使用自己的数据来增强 LLM 模型的知识。RAG 通常会用到三种不同的AI模型,即。原创 2025-03-15 07:45:00 · 2745 阅读 · 0 评论 -
LLM - Dify(1.0.1)搭建本地私有RAG知识库完整指南
由于 Dify 内置了构建 LLM 应用所需的关键技术栈,包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排,并同时提供了一套易用的界面和 API。它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。需要根据测试结果,发现回答不准确或性能不佳,可以对数据进行进一步的清洗和整理,优化索引结构,调整 RAG 模型的参数等。在 Dify 的界面中,点击用户名。原创 2025-03-15 05:15:00 · 3368 阅读 · 0 评论 -
LLM - Ollama+Deepseek R1+Nomic-Embed-Text+AnythingLLM搭建本地私有RAG知识库
通过以上步骤,选择本地ollama部署的大模型的话,就可以部署一个完全本地的RAG系统。数据隐私:所有处理均在本地完成。灵活扩展:支持替换其他Ollama模型(如Llama 3、Mistral)。成本可控:无需支付API费用。原创 2025-03-14 18:30:00 · 2350 阅读 · 0 评论 -
LLM - 使用 Ollama 和 Chatbox 实现 DeepSeek R1 的本地 AI 助手
如果硬件资源有限,可以尝试调整 Ollama 的加载模型的大小,减少模型的资源占用。Ollama安装过的模型都可以使用的。输入 Ollama 服务器的地址(通常是 http://127.0.0.1:11434)。在 Model 部分,选择 Ollama。选择 DeepSeek R1 作为模型。原创 2025-03-14 05:00:00 · 1559 阅读 · 0 评论 -
LLM - 本地 Ollama 部署DeepSeek
如果更注重数据隐私、希望离线使用,或者想更深入地定制和控制模型,那么本地部署 DeepSeek 模型是一个非常好的选择。Ollama 是一款专为大型语言模型(LLM)设计的开源本地化部署工具,其名称源自 “Operate Large Language Models Anywhere, Anytime”(随时随地运行大模型)的核心理念。原创 2025-03-13 18:45:00 · 1706 阅读 · 0 评论 -
LLM - 白话AI Agent
当前AI Agent仍然处于技术积累与实验阶段,尽管很多大模型厂家推出了Agent平台甚至商店,但主要集中在个人助理、娱乐、写作等对可靠性与确定性相对较低的领域,而在真正的生产力场景,还面临众多挑战。除此之外,通常Agent还需要提供一个直观的入口,让用户可以方便地给Agent下达指令或查看结果,这个入口可以是可视化的文字输入、语音输入,或者对外开放的API接口。:这是Agent的“存储器”,可用来存储短期的记忆(如一次任务过程中的多次人类交互)或长期记忆(如记录使用者的任务历史、个人信息、兴趣便好等)。原创 2025-03-13 05:15:00 · 1805 阅读 · 0 评论 -
LLM - 白话RAG(Retrieval-Augmented Generation)
RAG(Retrieval-Augmented Generation)通过实时检索外部知识库,为生成过程提供精准参考。大模型会以高度自信的姿态输出错误信息,犹如天才学生考试时"编造答案"。在医疗诊断、法律咨询等场景中,10%的错误率可能带来灾难性后果。原创 2025-03-12 22:39:33 · 1989 阅读 · 0 评论 -
LLM - 白话向量模型和向量数据库
BERT等Transformer模型通过自注意力机制动态调整上下文相关的向量表示,解决一词多义问题(如“苹果”在“水果”与“公司”场景下的不同向量)。其核心目标是将离散的符号化数据(如文本、图像、音频)转化为连续的高维向量空间中的数学表示,从而为模型提供可计算的语义基础。通过比较向量的“距离”,计算机能快速判断哪些事物是相关的。由于RAG应用是一种“边查边答”的应用,比如你问RAG应用:“C-RAG的基本原理是什么” 它需要检索出相关的资料段落(比如C-RAG论文),然后根据这些资料生成答案。原创 2025-03-12 05:15:00 · 2507 阅读 · 0 评论 -
LLM - 05_LangChain4j: 深入解析 ChatMemory & 案例实战
在构建多轮对话应用时,管理和维护聊天消息变得尤为重要。然而,手动管理每一条消息既繁琐又容易出错。为了解决这个问题,LangChain4j 提供了一个ChatMemory抽象,并且提供了多种现成的实现方案来简化这一过程。接下来我们将深入探讨 LangChain4j 中的ChatMemory组件,以及如何通过ChatMemory 更好地管理对话状态。ChatMemory作为一个内存管理容器,存储和管理多轮对话中的。消息驱逐策略(Eviction Policy)持久化存储(Persistence)原创 2024-12-18 06:45:00 · 3913 阅读 · 0 评论 -
LLM - 04_LangChain4j: 实现多轮对话:如何在LangChain4j中保持上下文
在与大语言模型进行对话时,如何保持对话的上下文,确保模型能够理解并正确响应多轮对话是一个非常重要的问题。对于许多应用场景,如客服机器人、虚拟助手等,多轮对话不仅仅是模型输出简单的回答,更要通过上下文的理解来确保对话的流畅和合理。LangChain4j提供了强大的工具来帮助我们实现多轮对话,接下来我们将详细介绍如何使用LangChain4j中的和ChatMemory组件实现多轮对话,并保持对话的上下文。在LangChain4j中,ChatMemory是用于管理和存储对话历史的组件。原创 2024-12-18 05:30:00 · 4919 阅读 · 0 评论 -
LLM - 03_LangChain4j:低级LLM API 解析 Chat and Language Models
通过管理不同类型的消息(如用户消息、AI 消息和系统消息),以及支持多种输入格式(如文本、图像、音频),开发者能够构建更为复杂和智能的对话系统。LangChain4j 提供了两种主要的 API 类型:LanguageModels 和 ChatLanguageModels,其中 ChatLanguageModel 是新的标准,用于更复杂的多轮对话场景。API 是目前推荐的交互方式,它可以接受多个聊天消息作为输入,并返回一个包含 AI 消息的响应。概念,自动管理消息的存储和加载,避免手动传递历史消息的繁琐。原创 2024-12-17 06:45:00 · 3276 阅读 · 0 评论 -
LLM - 02_LangChain4J 快速入门
在ChatGPT引发的大模型热潮中,LangChain4j应运而生,为Java开发者提供了一个强大且灵活的框架,帮助快速将大语言模型(LLM)集成到Java应用中。LangChain4j 灵感来自 Python 生态中的 LangChain。它简化了将大型语言模型(LLMs)集成到 Java 应用中的过程,适用于构建聊天机器人、问答系统等智能应用。统一APILLM提供商(如OpenAI、Google Vertex AI)和向量存储(如Pinecone、Milvus)各自有其独特的API。原创 2024-12-17 05:45:00 · 3677 阅读 · 0 评论 -
LLM - 01_了解LangChain和LangChain4J
随着人工智能和自然语言处理(NLP)的飞速发展,大语言模型(LLMs)正逐步成为各种智能应用的核心。为方便开发者使用和集成大语言模型,很多开源框架应运而生。LangChain和就是其中两个广受关注的框架,它们简化了与大语言模型的交互,并帮助开发者轻松构建复杂的 NLP 应用。原创 2024-12-09 23:25:22 · 4688 阅读 · 0 评论