自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(101)
  • 收藏
  • 关注

原创 Function Calling与跨模型协作

先给大模型 “注册” 工具:说明函数名、功能、参数格式(类似 “给助理一份工具清单”)。# 定义要给大模型用的函数(这里模拟天气查询函数)"""查询指定城市的实时气温"""# 实际场景是调用天气API,这里模拟返回结果return f"{city}今天的气温是-5℃"# 把函数信息告诉大模型(按OpenAI的格式要求)tools = ["description": "查询指定城市的实时气温",

2025-12-11 10:41:12 816

原创 LangChain 入门:从核心概念到实战上手

简单场景(聊天):用ChatOpenAI;文档问答场景:用「Loader+Splitter+VectorDB+RetrievalQA」;复杂场景(工具调用):用AgentTools。先跑通上面的 3 个案例,再根据具体需求(比如做公司知识库问答、AI 数据分析)拓展组件,很快就能上手实际开发。

2025-12-11 09:53:41 948

原创 基于 LlamaIndex 实现一个功能较完整的 RAG 系统

基于实现的功能完整的 RAG(检索增强生成)系统,包含文档加载、索引构建、检索、增强生成、对话记忆等核心功能,同时适配本地 / 开源 LLM(如 Llama 3)和云端 LLM(如 OpenAI)。

2025-12-09 16:35:08 668

原创 Qwen-Agent 搭建 RAG 核心知识点全解析(通俗版)

1. 注册自定义工具(AI绘画)description = 'AI绘画服务,输入文本描述返回图像URL''description': '图像描述',}]# 2. 创建智能体(调用自定义工具+代码工具)system_message='先绘画,再用代码下载,最后处理图像',function_list=['my_image_gen', 'code_interpreter'], # 自定义工具+内置代码工具files=[]# 3. 提问(比如“绘制一只狗并旋转90度”)

2025-12-01 15:58:02 710

原创 GraphRAG 核心知识点 +“提升实体 / 关系匹配数量” 全攻略(通俗版)

步骤大白话解释关键作用拆文本单元把文档切成小片段(TextUnit),比如每 200 字一段细粒度分析,方便后续提引用提知识图谱用 LLM 从片段里抠 “实体”(比如曹操、关羽)和 “关系”(比如曹操 - 结拜 - 关羽),还有 “主张”(比如 “曹操统一了北方”)把文字变成结构化的 “关系网”,是 GraphRAG 的核心社区聚类用 Leiden 算法把相关实体归成 “社区”(比如 “三国曹魏集团”“三国蜀汉集团”),还会分层(比如 “曹魏” 下分 “核心武将”“谋士”)

2025-12-01 15:19:16 541

原创 RAG 高效召回进阶方法全解析:查询扩展 / 索引扩展 / Small-to-Big

查询扩展解决 “意图覆盖不足” 问题,通过多查询、双向改写丰富语义;索引扩展解决 “单一索引局限” 问题,通过离散 + 连续索引互补;Small-to-Big 解决 “长文档检索效率低” 问题,通过 “先小后大” 平衡速度与精度。落地时建议按 “基础→进阶” 的顺序:先实现 MultiQueryRetriever + 混合索引,再根据场景补充双向改写 / Small-to-Big,最后通过重排序模型(如 BGE-Rerank)优化最终结果,可大幅提升 RAG 的召回质量和生成效果。

2025-11-29 09:45:00 1820 1

原创 RAG 高效召回方法:核心策略与落地实践

基础层:混合检索(关键词 + 向量)+ 知识图谱,保证召回的全面性和实体关联覆盖。优化层:查询扩展(多查询 + 同义词),拓宽召回范围,解决表述差异问题。精筛层:重排序模型,提升召回精度,筛选出最相关的文档。适配层:分场景策略 + 领域微调,适配不同查询类型和垂直场景。通过这套组合策略,可实现 “不遗漏、少冗余、高相关” 的召回效果,为 RAG 的最终生成质量打下坚实基础。

2025-11-29 08:45:00 412

原创 秒懂RAFT和RAG区别

RAG 是 “临时借知识”:每次回答都要查知识库;RAFT 是 “永久存知识”:把知识装进大模型里,之后不用再查。

2025-11-28 21:51:26 393

原创 RAG技术与应用

Thinking:RAG的优势是什么?• 解决知识时效性问题:大模型的训练数据通常是静态的,无 法涵盖最新信息,而RAG可以检索外部知识库实时更新信息。• 减少模型幻觉:通过引入外部知识,RAG能够减少模型生成 虚假或不准确内容的可能性。• 提升专业领域回答质量:RAG能够结合垂直领域的专业知识 库,生成更具专业深度的回答• 知识库构建:收集并整理文档、网页、数据库等多源数据,构 建外部知识库。• 文档分块:将文档切分为适当大小的片段(chunks),以便后 续检索。

2025-11-28 10:31:27 658

原创 DeepSeek + Faiss 搭建本地知识库检索:大白话教程(原理 + 步骤 + 实操)

核心逻辑:用 DeepSeek 把本地文档(比如小说、文档、资料)转成「语义向量」,再用 Faiss 建 “向量索引库”,输入问题时,先让 Faiss 从库中秒级找到最相关的文档片段,再把这些片段传给 DeepSeek 生成精准回答 —— 既解决大模型 “记不住本地内容” 的问题,又保证检索速度。

2025-11-28 09:30:00 573

原创 文本抄袭自动检测(Faiss 向量相似度方案):原理 + 步骤 + 对比原有方法

文本→清洗→TF-IDF/BERT 生成向量→Faiss 建索引→检索相似向量→阈值判定抄袭。相比原有方法,Faiss 胜在 “快 + 准”,尤其是数据量大时优势明显;如果是小数据量(万级以内),也可以用 Faiss,操作更简单,不用调聚类 / 分类的复杂参数。

2025-11-27 16:16:35 1161

原创 Word2Vec的应用场景有哪些

方案核心工具适合场景操作步骤入门级Word2Vec + 平均池化技术资源有限,追求快速落地1. 用 Word2Vec 训练小说摘要的词向量(把每个词转换成向量);2. 对单部小说的所有词向量取 “平均值”,得到该小说的「摘要向量」(如 100 维);3. 优点:简单易实现,算力要求低;缺点:忽略词的顺序(如 “男主救女主” 和 “女主救男主” 向量相近)。进阶级(推荐)BERT 等预训练模型(如中文 BERT、RoBERTa)追求精准度,有基础算力。

2025-11-27 14:01:26 843

原创 JVM 如何判断‘对象 / 类该回收

可达性分析判定为 “不可达” 的对象,不是立刻就被回收,而是进入 “缓刑期”—— 要经历两次标记,finalize () 是唯一的 “减刑机会”。堆中没有该类的任何实例:比如User类,所有new User()创建的对象都被回收了,堆里找不到User实例;加载该类的 ClassLoader 已经被回收:比如自定义的类加载器(不是 JVM 自带的 BootstrapClassLoader),它本身被回收了(没有引用指向它);该类的Class对象没有被引用:比如不能通过反射访问它(

2025-11-21 21:05:07 862

原创 快速理解JVM内存模型

先放一个 60MB 大箱子,Eden 区刚好装下,快满了;再放一个 8MB 箱子,Eden 区不够 → 触发 “小清理”;小清理时,大箱子塞不进中转区(Survivor)→ 直接送老仓库;中转区空了,新箱子顺利放进 Eden 区;老仓库还很空,不用 “大扫除”(Full GC)。大对象要么直接进老年代,要么因为中转区放不下,被 Minor GC 送到老年代,避免在新生代 “挤来挤去” 浪费资源。

2025-11-21 19:43:02 685

原创 向量数据库的使用

向量数据库是专门用于存储、管理和检索向量数据的数据库系统。向量是将非结构化数据(如文本、图像、音频等)通过深度学习模型(如词嵌入模型、图像特征提取模型)转化为的高维数值数组,向量数据库通过高效的向量相似度检索算法,能快速找到与目标向量最相似的向量,从而实现非结构化数据的相似性检索,例如相似图片搜索、文本语义相似性匹配等。

2025-11-19 11:30:53 885

原创 RAG高级技术与实践

它先通过检索获取相关知识,再基于这些知识对大模型进行微调,从而让模型在特定领域的生成效果更精准,兼具 RAG 的知识更新灵活性和微调后模型的生成专业性。它把知识以图的节点和边的形式组织,在检索时不仅能检索到单条知识,还能基于图的关联关系检索到知识之间的关联信息,让生成的内容更具逻辑性和关联性,适用于需要知识间强关联推理的场景(如医疗诊断、金融分析)。(大模型选择、prompt 工程)到 ** pipeline 优化 **(多轮交互、上下文管理)等多个层级的技术点,是理解 RAG 技术演进和技术选型的框架。

2025-11-18 20:57:02 1211

原创 字节码指令是如何⼯作的?

线程启动 → JVM 为其创建虚拟机栈;方法调用 → 虚拟机栈中压入一个栈帧(包含局部变量表、操作数栈等);字节码执行 → 指令在操作数栈中做计算,局部变量表存数据,程序计数器记进度;方法结束 → 栈帧出栈,通过返回地址回到调用方,继续执行下一条指令。字节码是 “指令”,栈帧是 “工作台”,局部变量表是 “仓库”,操作数栈是 “算盘”,程序计数器是 “进度条”,它们协同工作完成 Java 代码的执行。

2025-11-18 16:45:23 819

原创 JVM虚拟机核心总结

2025-11-17 17:21:17 711

原创 什么是 Embedding?

Embedding(嵌入)是将高维、离散的对象映射到低维、连续向量空间的技术,使得这些向量能捕捉对象的语义、特征或关系。比如在自然语言处理中,把单词从 “one-hot 编码(高维、稀疏)” 转化为低维的 “词向量”,让语义相近的单词在向量空间中距离更近(如 “猫” 和 “狗” 的向量比 “猫” 和 “汽车” 的向量更接近)。它广泛应用于推荐系统、自然语言处理、计算机视觉等领域,让机器能更好地理解和处理非结构化数据(文本、图像等)。N-Gram 是自然语言处理中用于表示文本序列特征的方法。

2025-11-17 11:35:45 775

原创 MCP/RAG/Agent的区别联系与应用

核心结论:MCP 是 “万能接口 + 资源调度员”,RAG 是 “AI 专属搜索引擎”,Agent 是 “自主办事员”,三者常搭配解决复杂问题。

2025-11-17 10:04:20 816

原创 综合实战:AI 取名应用(Vue 3+Cursor 全流程)

先给 AI 设定开发规则,确保生成的代码符合 Vue 3 最佳实践,无需反复调整格式。

2025-11-16 10:00:00 754

原创 详解 Cursor 核心能力,代码库索引、AI 审查重构、隐私模式、模型选择、自定义 Rules、外部文档知识库、MCP 服务器配置

给 AI 设定「固定规则」,让其在所有项目中遵循统一的编码规范、技术栈偏好、输出格式,避免重复沟通,生成的代码直接符合你的需求。「代码库索引 + 外部文档知识库」解决 “AI 不懂你的项目 / 业务”;「AI 审查重构 + 自定义 Rules」解决 “代码质量低、不规范”;「隐私模式」解决 “敏感代码不敢用 AI”;「模型选择」解决 “不同场景适配不同 AI 能力”;「MCP 服务器」解决 “AI 无法对接本地工具 / 数据源”。

2025-11-16 09:15:00 1075

原创 如果要在cursor中对本地数据库进行操作,该如何操作

AI 帮你写代码,MCP 保障本地资源访问,终端直接测试明确数据库类型 + 需求(用自然语言描述);让 AI 生成 “连接 + 建表 + CRUD” 代码;用 Cursor 终端运行测试;报错时让 AI 排查修复。提示词越具体,生成的代码越精准,比如明确 “数据库类型、连接参数、字段约束、操作逻辑”,AI 能直接生成可运行的代码,无需二次修改。

2025-11-15 10:00:00 926

原创 在 Cursor 中实现「对话式操作本地数据库」

让 AI 生成数据库操作封装(db_core.py让 AI 生成对话交互脚本(db_chat.py运行脚本,直接用自然语言输入需求,自动执行。关键优势:无需懂 SQL、无需写代码,非技术人员也能操作本地数据库;借助 Cursor 的 MCP 协议,所有操作都在本地完成,数据安全无泄露;AI 自动适配需求,支持从简单增删改查到复杂统计查询。

2025-11-15 08:30:00 1193

原创 RAG 和微调(Fine-tuning)核心对比:通俗版 + 实操选型

前者轻量灵活,后者深度适配,选型看数据、成本和场景。

2025-11-14 17:09:40 332

原创 Cursor 从入门到精通:AI 驱动的代码编辑器实战指南

场景:长期做某类开发(如 Django 后端、React 前端),需要 AI 遵循固定规范(如代码风格、命名规则、项目结构)。操作:打开 AI 侧边栏,点击 “Settings”→“Custom Prompts”,添加自定义提示词模板。示例(Django 开发规范):“后续生成 Django 代码时,遵循以下规则:1. 模型类名使用 PascalCase,字段名使用 snake_case;2. 视图优先使用类视图(APIView);

2025-11-14 14:51:43 969

原创 大模型应用开发工程师之详解RAG

RAG 是 Retrieval-Augmented Generation 的缩写,本质是 “检索 + 生成” 的协同架构。核心逻辑:大模型生成答案前,先从外部知识库中检索与问题相关的精准信息,再基于这些信息生成最终回复。核心价值:解决大模型 “知识固定(训练数据截止到某一时间)”“无法访问私有数据”“易产生幻觉” 三大痛点。这套方案从零到一落地 RAG 仅需 3 步,无需复杂部署,适合快速验证场景。数据量增长:替换为 Milvus 向量数据库精度要求提升:改用嵌入模型 + 重排(如。

2025-11-14 14:40:13 1485

原创 高并发系统设计核心精华总结

场景决定策略:读多写少侧重 “缓存 + 重写轻读”,写多侧重 “分片 + 异步”,读写双高需 “读写分离 + 实时一致性控制”。四大核心思路:缓存(读加速)、分片(压力拆分)、异步(错峰解耦)、重写轻读(转移计算)。一致性权衡:读场景可接受最终一致性(如商品价格延迟几秒更新),写场景(支付 / 库存)需保证实时一致性或极小延迟。

2025-11-13 21:05:14 366

原创 fastapi详解

return user # 响应状态码 201(创建成功)适合快速构建高性能 API,尤其适合数据接口、微服务;类型注解驱动,代码可读性强、维护成本低;自动文档 + 数据校验,减少调试和文档编写时间;原生异步支持,轻松应对高并发场景。

2025-11-13 20:23:31 1150

原创 AI 大模型训练 / 推理的 CPU/GPU 选型指南整理 (仅供参考)

Transformer 引擎,FP8 支持。PCIe 5.0 + 受限 NVLink。中小规模训练 / 推理、企业级部署。中大规模训练 / 推理、通用场景。小规模训练 / 推理、原型开发。中国区中大规模训练 / 推理。中国区大规模推理、高并发场景。算力(FP16/TF32)大显存,INT8 性能突出。中国合规,替代 A100。专业卡稳定,适合工作站。超大规模训练、顶级推理。

2025-11-10 15:10:51 1201

原创 带你了解Transformer

Transformer 靠 “同时算所有词 + 自动找关联 + 标注位置”,解决了以前模型 “慢、记不住长关联” 的问题,成了现在翻译、聊天机器人、摘要生成等所有语言任务的基础。我们来深入、系统地剖析一下 Transformer 模型。Transformer 是 2017 年由 Google 在论文《Attention Is All You Need》中提出的深度学习模型,核心创新是完全基于自注意力机制(Self-Attention)

2025-11-10 11:29:28 964 1

原创 知识详解:GPU和CPU,以及它们在AI大模型中的应用

先说核心结论:CPU 是 “全能管家” 管统筹,GPU 是 “流水线工人军团” 干重活,AI 大模型训练和快速响应靠 GPU,系统运转和协调靠 CPU,二者配合才能让大模型跑起来。

2025-11-08 14:35:07 675

原创 RPC详解

RPC 是远程过程调用的缩写,核心是让程序像调用本地函数一样,调用远程服务器上的函数或服务,无需关注网络通信细节。

2025-11-08 10:00:00 916

原创 提示词工程中会出现哪些问题?以及如何防范?

提示词工程(Prompt Engineering)在与大语言模型(LLM)交互时,可能遇到多种问题,这些问题本质上与模型的训练逻辑、输入解析方式及安全边界有关。

2025-11-07 17:13:15 762

原创 详解:长连接/短连接/Cookie/Session/WebSocket

本质是客户端与服务端完成单次请求 - 响应后,立即关闭 TCP 连接。流程:建立 TCP 连接 → 发送请求 → 接收响应 → 关闭连接。典型场景:HTTP 1.0 协议、简单数据查询(如单次接口请求)。本质是浏览器存储的小型文本数据,由服务端通过 HTTP 响应头下发。核心作用是携带身份标识(如 Session ID)、保存用户偏好(如语言设置)。特点:存储在客户端(浏览器)、容量有限(约 4KB)、随 HTTP/HTTPS 请求自动携带。

2025-11-07 16:38:32 1019 1

原创 详解不同场景下的服务降级手段

通俗简洁先讲一遍,帮助大家快速理解:服务降级就是在系统扛不住的时候,把非核心功能先 “关掉” 或 “简化”,保障核心业务能跑。总结就是:从自动 / 手动开关、读写功能、系统分层三个角度,灵活给系统 “减负”,确保核心业务不崩。

2025-11-06 14:57:28 858

原创 Sentinel + Nacos 规则持久化的完整配置模板

Sentinel + Nacos 规则持久化」的完整配置模板,包含三部分,可直接复制到生产环境使用(根据实际环境调整参数)。

2025-11-06 09:30:00 298

原创 生产环境接入Sentinel规则持久化配置

生产环境接入 Sentinel 规则持久化,核心是解决规则重启丢失问题,主流方案是结合(如 Nacos/Apollo)或实现规则的存储与动态同步。这个问题很关键,直接关系到 Sentinel 在生产环境的稳定性和可用性,避免了每次服务重启后重新配置规则的繁琐操作。

2025-11-05 18:16:47 1076

原创 在大模型应用开发过程中如何写提示词让LLM更加准确回答问题

在大模型应用开发中,写好提示词(Prompt)是让 LLM 准确回答问题的核心,本质是通过清晰的指令 “引导模型理解需求、限定输出范围、规避错误”。通过这几点,能让 LLM 的回答准确率大幅提升,尤其适合开发中需要稳定输出结果的场景(如客服机器人、数据提取工具等)。指定输出格式(如列表、表格、JSON),避免模型自由发挥导致结果混乱,尤其适合开发中需要解析结果的场景。如果任务复杂(如分类、翻译风格),给 1-2 个示例,模型会快速对齐你的需求。模型的回答依赖输入的信息,缺失关键背景会导致偏差。

2025-11-05 09:30:00 384

原创 NumPy 和 Pandas详解以及他们在LLM中的应用

NumPy 和 Pandas 是 Python 数据科学领域最核心的两个库,分别专注于数值计算和数据分析,二者常结合使用以高效处理结构化和非结构化数据。NumPy(Numerical Python)是 Python 科学计算的基础库,提供了高性能的多维数组对象和数学函数,是 Pandas 等高级库的底层依赖。

2025-11-04 14:21:46 1557 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除