心态特好-CSDN博客

原创 Function Calling与跨模型协作

先给大模型 “注册” 工具：说明函数名、功能、参数格式（类似 “给助理一份工具清单”）。# 定义要给大模型用的函数（这里模拟天气查询函数）"""查询指定城市的实时气温"""# 实际场景是调用天气API，这里模拟返回结果return f"{city}今天的气温是-5℃"# 把函数信息告诉大模型（按OpenAI的格式要求）tools = ["description": "查询指定城市的实时气温",

2025-12-11 10:41:12 816

原创 LangChain 入门：从核心概念到实战上手

简单场景（聊天）：用ChatOpenAI；文档问答场景：用「Loader+Splitter+VectorDB+RetrievalQA」；复杂场景（工具调用）：用AgentTools。先跑通上面的 3 个案例，再根据具体需求（比如做公司知识库问答、AI 数据分析）拓展组件，很快就能上手实际开发。

2025-12-11 09:53:41 948

原创基于 LlamaIndex 实现一个功能较完整的 RAG 系统

基于实现的功能完整的 RAG（检索增强生成）系统，包含文档加载、索引构建、检索、增强生成、对话记忆等核心功能，同时适配本地 / 开源 LLM（如 Llama 3）和云端 LLM（如 OpenAI）。

2025-12-09 16:35:08 668

原创 Qwen-Agent 搭建 RAG 核心知识点全解析（通俗版）

1. 注册自定义工具（AI绘画）description = 'AI绘画服务，输入文本描述返回图像URL''description': '图像描述',}]# 2. 创建智能体（调用自定义工具+代码工具）system_message='先绘画，再用代码下载，最后处理图像',function_list=['my_image_gen', 'code_interpreter'], # 自定义工具+内置代码工具files=[]# 3. 提问（比如“绘制一只狗并旋转90度”）

2025-12-01 15:58:02 710

原创 GraphRAG 核心知识点 +“提升实体 / 关系匹配数量” 全攻略（通俗版）

步骤大白话解释关键作用拆文本单元把文档切成小片段（TextUnit），比如每 200 字一段细粒度分析，方便后续提引用提知识图谱用 LLM 从片段里抠 “实体”（比如曹操、关羽）和 “关系”（比如曹操 - 结拜 - 关羽），还有 “主张”（比如 “曹操统一了北方”）把文字变成结构化的 “关系网”，是 GraphRAG 的核心社区聚类用 Leiden 算法把相关实体归成 “社区”（比如 “三国曹魏集团”“三国蜀汉集团”），还会分层（比如 “曹魏” 下分 “核心武将”“谋士”）

2025-12-01 15:19:16 541

原创 RAG 高效召回进阶方法全解析：查询扩展 / 索引扩展 / Small-to-Big

查询扩展解决 “意图覆盖不足” 问题，通过多查询、双向改写丰富语义；索引扩展解决 “单一索引局限” 问题，通过离散 + 连续索引互补；Small-to-Big 解决 “长文档检索效率低” 问题，通过 “先小后大” 平衡速度与精度。落地时建议按 “基础→进阶” 的顺序：先实现 MultiQueryRetriever + 混合索引，再根据场景补充双向改写 / Small-to-Big，最后通过重排序模型（如 BGE-Rerank）优化最终结果，可大幅提升 RAG 的召回质量和生成效果。

2025-11-29 09:45:00 1820 1

原创 RAG 高效召回方法：核心策略与落地实践

基础层：混合检索（关键词 + 向量）+ 知识图谱，保证召回的全面性和实体关联覆盖。优化层：查询扩展（多查询 + 同义词），拓宽召回范围，解决表述差异问题。精筛层：重排序模型，提升召回精度，筛选出最相关的文档。适配层：分场景策略 + 领域微调，适配不同查询类型和垂直场景。通过这套组合策略，可实现 “不遗漏、少冗余、高相关” 的召回效果，为 RAG 的最终生成质量打下坚实基础。

2025-11-29 08:45:00 412

原创秒懂RAFT和RAG区别

RAG 是 “临时借知识”：每次回答都要查知识库；RAFT 是 “永久存知识”：把知识装进大模型里，之后不用再查。

2025-11-28 21:51:26 393

原创 RAG技术与应用

Thinking：RAG的优势是什么？• 解决知识时效性问题：大模型的训练数据通常是静态的，无法涵盖最新信息，而RAG可以检索外部知识库实时更新信息。• 减少模型幻觉：通过引入外部知识，RAG能够减少模型生成虚假或不准确内容的可能性。• 提升专业领域回答质量：RAG能够结合垂直领域的专业知识库，生成更具专业深度的回答• 知识库构建：收集并整理文档、网页、数据库等多源数据，构建外部知识库。• 文档分块：将文档切分为适当大小的片段（chunks），以便后续检索。

2025-11-28 10:31:27 658

原创 DeepSeek + Faiss 搭建本地知识库检索：大白话教程（原理 + 步骤 + 实操）

核心逻辑：用 DeepSeek 把本地文档（比如小说、文档、资料）转成「语义向量」，再用 Faiss 建 “向量索引库”，输入问题时，先让 Faiss 从库中秒级找到最相关的文档片段，再把这些片段传给 DeepSeek 生成精准回答 —— 既解决大模型 “记不住本地内容” 的问题，又保证检索速度。

2025-11-28 09:30:00 573

原创文本抄袭自动检测（Faiss 向量相似度方案）：原理 + 步骤 + 对比原有方法

文本→清洗→TF-IDF/BERT 生成向量→Faiss 建索引→检索相似向量→阈值判定抄袭。相比原有方法，Faiss 胜在 “快 + 准”，尤其是数据量大时优势明显；如果是小数据量（万级以内），也可以用 Faiss，操作更简单，不用调聚类 / 分类的复杂参数。

2025-11-27 16:16:35 1161

原创 Word2Vec的应用场景有哪些

方案核心工具适合场景操作步骤入门级Word2Vec + 平均池化技术资源有限，追求快速落地1. 用 Word2Vec 训练小说摘要的词向量（把每个词转换成向量）；2. 对单部小说的所有词向量取 “平均值”，得到该小说的「摘要向量」（如 100 维）；3. 优点：简单易实现，算力要求低；缺点：忽略词的顺序（如 “男主救女主” 和 “女主救男主” 向量相近）。进阶级（推荐）BERT 等预训练模型（如中文 BERT、RoBERTa）追求精准度，有基础算力。

2025-11-27 14:01:26 843

原创 JVM 如何判断‘对象 / 类该回收

可达性分析判定为 “不可达” 的对象，不是立刻就被回收，而是进入 “缓刑期”—— 要经历两次标记，finalize () 是唯一的 “减刑机会”。堆中没有该类的任何实例：比如User类，所有new User()创建的对象都被回收了，堆里找不到User实例；加载该类的 ClassLoader 已经被回收：比如自定义的类加载器（不是 JVM 自带的 BootstrapClassLoader），它本身被回收了（没有引用指向它）；该类的Class对象没有被引用：比如不能通过反射访问它（

2025-11-21 21:05:07 862

原创快速理解JVM内存模型

先放一个 60MB 大箱子，Eden 区刚好装下，快满了；再放一个 8MB 箱子，Eden 区不够 → 触发 “小清理”；小清理时，大箱子塞不进中转区（Survivor）→ 直接送老仓库；中转区空了，新箱子顺利放进 Eden 区；老仓库还很空，不用 “大扫除”（Full GC）。大对象要么直接进老年代，要么因为中转区放不下，被 Minor GC 送到老年代，避免在新生代 “挤来挤去” 浪费资源。

2025-11-21 19:43:02 685

原创向量数据库的使用

向量数据库是专门用于存储、管理和检索向量数据的数据库系统。向量是将非结构化数据（如文本、图像、音频等）通过深度学习模型（如词嵌入模型、图像特征提取模型）转化为的高维数值数组，向量数据库通过高效的向量相似度检索算法，能快速找到与目标向量最相似的向量，从而实现非结构化数据的相似性检索，例如相似图片搜索、文本语义相似性匹配等。

2025-11-19 11:30:53 885

原创 RAG高级技术与实践

它先通过检索获取相关知识，再基于这些知识对大模型进行微调，从而让模型在特定领域的生成效果更精准，兼具 RAG 的知识更新灵活性和微调后模型的生成专业性。它把知识以图的节点和边的形式组织，在检索时不仅能检索到单条知识，还能基于图的关联关系检索到知识之间的关联信息，让生成的内容更具逻辑性和关联性，适用于需要知识间强关联推理的场景（如医疗诊断、金融分析）。（大模型选择、prompt 工程）到 ** pipeline 优化 **（多轮交互、上下文管理）等多个层级的技术点，是理解 RAG 技术演进和技术选型的框架。

2025-11-18 20:57:02 1211

原创字节码指令是如何⼯作的？

线程启动 → JVM 为其创建虚拟机栈；方法调用 → 虚拟机栈中压入一个栈帧（包含局部变量表、操作数栈等）；字节码执行 → 指令在操作数栈中做计算，局部变量表存数据，程序计数器记进度；方法结束 → 栈帧出栈，通过返回地址回到调用方，继续执行下一条指令。字节码是 “指令”，栈帧是 “工作台”，局部变量表是 “仓库”，操作数栈是 “算盘”，程序计数器是 “进度条”，它们协同工作完成 Java 代码的执行。

2025-11-18 16:45:23 819

原创 JVM虚拟机核心总结

2025-11-17 17:21:17 711

原创什么是 Embedding？

Embedding（嵌入）是将高维、离散的对象映射到低维、连续向量空间的技术，使得这些向量能捕捉对象的语义、特征或关系。比如在自然语言处理中，把单词从 “one-hot 编码（高维、稀疏）” 转化为低维的 “词向量”，让语义相近的单词在向量空间中距离更近（如 “猫” 和 “狗” 的向量比 “猫” 和 “汽车” 的向量更接近）。它广泛应用于推荐系统、自然语言处理、计算机视觉等领域，让机器能更好地理解和处理非结构化数据（文本、图像等）。N-Gram 是自然语言处理中用于表示文本序列特征的方法。

2025-11-17 11:35:45 775

原创 MCP/RAG/Agent的区别联系与应用

核心结论：MCP 是 “万能接口 + 资源调度员”，RAG 是 “AI 专属搜索引擎”，Agent 是 “自主办事员”，三者常搭配解决复杂问题。

2025-11-17 10:04:20 816

原创综合实战：AI 取名应用（Vue 3+Cursor 全流程）

先给 AI 设定开发规则，确保生成的代码符合 Vue 3 最佳实践，无需反复调整格式。

2025-11-16 10:00:00 754

原创详解 Cursor 核心能力，代码库索引、AI 审查重构、隐私模式、模型选择、自定义 Rules、外部文档知识库、MCP 服务器配置

给 AI 设定「固定规则」，让其在所有项目中遵循统一的编码规范、技术栈偏好、输出格式，避免重复沟通，生成的代码直接符合你的需求。「代码库索引 + 外部文档知识库」解决 “AI 不懂你的项目 / 业务”；「AI 审查重构 + 自定义 Rules」解决 “代码质量低、不规范”；「隐私模式」解决 “敏感代码不敢用 AI”；「模型选择」解决 “不同场景适配不同 AI 能力”；「MCP 服务器」解决 “AI 无法对接本地工具 / 数据源”。

2025-11-16 09:15:00 1075

原创如果要在cursor中对本地数据库进行操作，该如何操作

AI 帮你写代码，MCP 保障本地资源访问，终端直接测试明确数据库类型 + 需求（用自然语言描述）；让 AI 生成 “连接 + 建表 + CRUD” 代码；用 Cursor 终端运行测试；报错时让 AI 排查修复。提示词越具体，生成的代码越精准，比如明确 “数据库类型、连接参数、字段约束、操作逻辑”，AI 能直接生成可运行的代码，无需二次修改。

2025-11-15 10:00:00 926

原创在 Cursor 中实现「对话式操作本地数据库」

让 AI 生成数据库操作封装（db_core.py让 AI 生成对话交互脚本（db_chat.py运行脚本，直接用自然语言输入需求，自动执行。关键优势：无需懂 SQL、无需写代码，非技术人员也能操作本地数据库；借助 Cursor 的 MCP 协议，所有操作都在本地完成，数据安全无泄露；AI 自动适配需求，支持从简单增删改查到复杂统计查询。

2025-11-15 08:30:00 1193

原创 RAG 和微调（Fine-tuning）核心对比：通俗版 + 实操选型

前者轻量灵活，后者深度适配，选型看数据、成本和场景。

2025-11-14 17:09:40 332

原创 Cursor 从入门到精通：AI 驱动的代码编辑器实战指南

场景：长期做某类开发（如 Django 后端、React 前端），需要 AI 遵循固定规范（如代码风格、命名规则、项目结构）。操作：打开 AI 侧边栏，点击 “Settings”→“Custom Prompts”，添加自定义提示词模板。示例（Django 开发规范）：“后续生成 Django 代码时，遵循以下规则：1. 模型类名使用 PascalCase，字段名使用 snake_case；2. 视图优先使用类视图（APIView）；

2025-11-14 14:51:43 969

原创大模型应用开发工程师之详解RAG

RAG 是 Retrieval-Augmented Generation 的缩写，本质是 “检索 + 生成” 的协同架构。核心逻辑：大模型生成答案前，先从外部知识库中检索与问题相关的精准信息，再基于这些信息生成最终回复。核心价值：解决大模型 “知识固定（训练数据截止到某一时间）”“无法访问私有数据”“易产生幻觉” 三大痛点。这套方案从零到一落地 RAG 仅需 3 步，无需复杂部署，适合快速验证场景。数据量增长：替换为 Milvus 向量数据库精度要求提升：改用嵌入模型 + 重排（如。

2025-11-14 14:40:13 1485

原创高并发系统设计核心精华总结

场景决定策略：读多写少侧重 “缓存 + 重写轻读”，写多侧重 “分片 + 异步”，读写双高需 “读写分离 + 实时一致性控制”。四大核心思路：缓存（读加速）、分片（压力拆分）、异步（错峰解耦）、重写轻读（转移计算）。一致性权衡：读场景可接受最终一致性（如商品价格延迟几秒更新），写场景（支付 / 库存）需保证实时一致性或极小延迟。

2025-11-13 21:05:14 366

原创 fastapi详解

return user # 响应状态码 201（创建成功）适合快速构建高性能 API，尤其适合数据接口、微服务；类型注解驱动，代码可读性强、维护成本低；自动文档 + 数据校验，减少调试和文档编写时间；原生异步支持，轻松应对高并发场景。

2025-11-13 20:23:31 1150

原创 AI 大模型训练 / 推理的 CPU/GPU 选型指南整理（仅供参考）

Transformer 引擎，FP8 支持。PCIe 5.0 + 受限 NVLink。中小规模训练 / 推理、企业级部署。中大规模训练 / 推理、通用场景。小规模训练 / 推理、原型开发。中国区中大规模训练 / 推理。中国区大规模推理、高并发场景。算力（FP16/TF32）大显存，INT8 性能突出。中国合规，替代 A100。专业卡稳定，适合工作站。超大规模训练、顶级推理。

2025-11-10 15:10:51 1201

原创带你了解Transformer

Transformer 靠 “同时算所有词 + 自动找关联 + 标注位置”，解决了以前模型 “慢、记不住长关联” 的问题，成了现在翻译、聊天机器人、摘要生成等所有语言任务的基础。我们来深入、系统地剖析一下 Transformer 模型。Transformer 是 2017 年由 Google 在论文《Attention Is All You Need》中提出的深度学习模型，核心创新是完全基于自注意力机制（Self-Attention）

2025-11-10 11:29:28 964 1

原创知识详解:GPU和CPU，以及它们在AI大模型中的应用

先说核心结论：CPU 是 “全能管家” 管统筹，GPU 是 “流水线工人军团” 干重活，AI 大模型训练和快速响应靠 GPU，系统运转和协调靠 CPU，二者配合才能让大模型跑起来。

2025-11-08 14:35:07 675

原创 RPC详解

RPC 是远程过程调用的缩写，核心是让程序像调用本地函数一样，调用远程服务器上的函数或服务，无需关注网络通信细节。

2025-11-08 10:00:00 916

原创提示词工程中会出现哪些问题？以及如何防范？

提示词工程（Prompt Engineering）在与大语言模型（LLM）交互时，可能遇到多种问题，这些问题本质上与模型的训练逻辑、输入解析方式及安全边界有关。

2025-11-07 17:13:15 762

原创详解：长连接/短连接/Cookie/Session/WebSocket

本质是客户端与服务端完成单次请求 - 响应后，立即关闭 TCP 连接。流程：建立 TCP 连接 → 发送请求 → 接收响应 → 关闭连接。典型场景：HTTP 1.0 协议、简单数据查询（如单次接口请求）。本质是浏览器存储的小型文本数据，由服务端通过 HTTP 响应头下发。核心作用是携带身份标识（如 Session ID）、保存用户偏好（如语言设置）。特点：存储在客户端（浏览器）、容量有限（约 4KB）、随 HTTP/HTTPS 请求自动携带。

2025-11-07 16:38:32 1019 1

原创详解不同场景下的服务降级手段

通俗简洁先讲一遍，帮助大家快速理解：服务降级就是在系统扛不住的时候，把非核心功能先 “关掉” 或 “简化”，保障核心业务能跑。总结就是：从自动 / 手动开关、读写功能、系统分层三个角度，灵活给系统 “减负”，确保核心业务不崩。

2025-11-06 14:57:28 858

原创 Sentinel + Nacos 规则持久化的完整配置模板

Sentinel + Nacos 规则持久化」的完整配置模板，包含三部分，可直接复制到生产环境使用（根据实际环境调整参数）。

2025-11-06 09:30:00 298

原创生产环境接入Sentinel规则持久化配置

生产环境接入 Sentinel 规则持久化，核心是解决规则重启丢失问题，主流方案是结合（如 Nacos/Apollo）或实现规则的存储与动态同步。这个问题很关键，直接关系到 Sentinel 在生产环境的稳定性和可用性，避免了每次服务重启后重新配置规则的繁琐操作。

2025-11-05 18:16:47 1076

原创在大模型应用开发过程中如何写提示词让LLM更加准确回答问题

在大模型应用开发中，写好提示词（Prompt）是让 LLM 准确回答问题的核心，本质是通过清晰的指令 “引导模型理解需求、限定输出范围、规避错误”。通过这几点，能让 LLM 的回答准确率大幅提升，尤其适合开发中需要稳定输出结果的场景（如客服机器人、数据提取工具等）。指定输出格式（如列表、表格、JSON），避免模型自由发挥导致结果混乱，尤其适合开发中需要解析结果的场景。如果任务复杂（如分类、翻译风格），给 1-2 个示例，模型会快速对齐你的需求。模型的回答依赖输入的信息，缺失关键背景会导致偏差。

2025-11-05 09:30:00 384

原创 NumPy 和 Pandas详解以及他们在LLM中的应用

NumPy 和 Pandas 是 Python 数据科学领域最核心的两个库，分别专注于数值计算和数据分析，二者常结合使用以高效处理结构化和非结构化数据。NumPy（Numerical Python）是 Python 科学计算的基础库，提供了高性能的多维数组对象和数学函数，是 Pandas 等高级库的底层依赖。

2025-11-04 14:21:46 1557 1

空空如也

空空如也