- 博客(633)
- 收藏
- 关注
原创 大语言模型应用实战:FastAPI与RAG智能文档问答系统构建|附教程文档
本文将引导您一步步构建一个基于FastAPI的RAG(检索增强生成 )系统。我们会先梳理RAG的核心概念与FastAPI的优势,随后深入代码实现,打造一个能够接收PDF或TXT文档、对其内容进行索引、并回答用户问题的API服务。最后,我们还会探讨HTTP状态码的工程意义,并展望系统的优化方向。图片理解REST APIREST API 是一种接口,用于在客户端和服务器之间建立通信。REST API 是 Representational State Transfer API 的缩写。
2026-03-12 15:23:05
188
原创 FastAPI 教程
”“创建新用户,包含数据验证”“”# Pydantic 自动验证输入数据错误响应格式实例field: strcode: strerror: str))message="请求数据验证失败",).dict()).dict()FastAPI 特有概念自动文档生成实例title=“我的 API”,description=“这是一个示例 API,展示 FastAPI 的功能”,contact={
2026-03-12 11:49:44
363
原创 前后端基础知识总结
网页相关知识网页前端“三剑客”典型的网页一般是由HTML、CSS、JavaScript三种语言共同完成的,这三种语言常被称为网页前端“三剑客”。HTML 相当于一个文档,它通过标签把信息进行编排和呈现;CSS 可以对这些文档进行修饰、美化,提升视觉效果;JavaScript 实现了网页和用户的互动。如果把页面比作一扇门,那么HTML是门板,CSS是色泽或花纹,JavaScript就是门的把手。HTML——网页的主体(HTML超文本标记语言)HTML 是超文本标记语言。之所以被称为“超文本”,是因为它不仅
2026-03-11 17:38:02
225
原创 AI native Workspace 也许是智能体的下一阶段
它本质是编程智能体的图形界面版,让不懂编程的用户,用自然语言说出需求,再通过 AI 生成底层代码并执行,自动操作本地计算机完成任务。后来,向专业领域发展,演变出编程智能体(coding agent)、图像智能体、视频智能体等等,或者接入 MCP,获得外部应用操作能力,比如生成 Office 文件、操作浏览器。注意,由于它可以操作计算机,并跟互联网通信,执行之前,一定要指定目录,防止读写不该操作的目录,而且要有备份,防止原始文件被删改。大模型只是底层的处理引擎,你总是需要一个应用层产品,对接用户的需求。
2026-02-09 17:47:24
740
原创 前端知识:网页的某些功能突然点不开了
报错原因是 CDN 被断开,xlsx.full.min.js 没加载导致 XLSX is not defined。我已经改成本地加载,你只需要把文件放到服务器上即可。新增路由 xlsx.full.min.js 从本地路径读取。HTML 中的脚本改为 xlsx.full.min.js。
2026-02-05 15:38:36
118
原创 FastAPI 学习指南
FastAPI 是一个现代、快速(高性能)的 Python Web 框架,用于构建 API。它基于 Python 类型提示,支持异步编程,并自动生成交互式 API 文档。以下是学习 FastAPI 的关键内容和方法。通过以上内容,可以快速掌握 FastAPI 的核心功能并构建高效的 API 应用。
2026-01-28 17:23:59
352
原创 DeepSeek-OCR及其他主流OCR调研
DeepSeek-OCR原理DeepSeek-OCR模型,整个模型大小在3B。DeepSeek-OCR的提出,是为了探索,是否可以通过视觉模态进行文本信息的高效压缩,也就是把文档内容,用图像Token表示,其Token数量会远小于原始文本Tokens数,1w字,可能需要5000个Token,但用图像来表示,可能只需要512 个 Token。DeepSeek,是在想用图像视觉压缩文本。论文核心思想上下文光学压缩 (Contexts Optical Compression)当前LLM处理长文本
2026-01-23 16:11:36
814
原创 创建CUDA11.8环境部署DeepSeek-OCR
完整部署步骤:Linux下保留系统CUDA12.6,通过Conda创建CUDA11.8环境部署DeepSeek-OCR核心逻辑:利用Conda环境隔离性,在新环境中安装CUDA11.8 toolkit,系统CUDA12.6完全不受影响,所有依赖均在隔离环境内安装。步骤1:安装/验证Conda(Anaconda/Miniconda)如果已安装Conda,跳过此步;未安装则执行:wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-
2026-01-20 16:03:07
717
原创 本周热门论文Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition
该公式详细阐述了Qwen-Image-Layered模型中RGBA-VAE初始化阶段的关键步骤,即通过将编码器和解码器中处理新增Alpha通道的权重设置为零,同时将解码器中Alpha通道的偏置设置为1,从而在不影响原有RGB重建能力的前提下,将预训练的RGB VAE有效地扩展为能够统一处理RGB和RGBA图像的RGBA-VAE。这一策略确保了模型在多通道任务上的稳定性和性能。对于训练目标,我们结合使用了重建损失、感知损失和正则化损失。
2026-01-15 16:45:07
656
原创 Agent Skills 入门:把“公司 SOP + 工具脚本”封装成可复用技能,让 Agent 真正在你团队里干活
Anthropic 在 2025-10-16 的工程文章里把这个问题抽象成一个清晰的答案:把“可复用的流程知识”打包成 Skill 文件夹,由 Agent 动态发现 + 按需加载,把通用模型变成贴合你工作方式的专用 Agent。当然,Skill 也可以用来扩展 Agent 的工具、MCP 使用边界,通过文档与脚本,也可以教会 Agent 连接并使用特定的外部工具、MCP 服务。Agent 可通过加载不同的 Skills 包,来具备不同的专业知识、工具使用能力,稳定完成特定任务。
2026-01-07 14:15:01
382
原创 智能体技能 (Agent Skills)实践
🧩 可扩展设计:技能数据结构模块化,提供如 SkillSchema 和 SkillContext 等实现,便于扩展与定制。🤖 自主执行能力:智能体可根据技能定义,自主分析、规划并决策需调用的脚本与资源。🔍 技能管理支持:支持批量加载技能,并能根据用户输入自动检索与发现相关技能。沙箱环境将根据技能声明的依赖项自动安装所需依赖,无需手动配置。这种方法在提供全面技能能力的同时,最大限度地减少资源消耗。该方式提供安全的执行环境,可有效防止对宿主系统造成潜在危害。提供的安全沙箱执行(自动安装依赖、实现环境隔离)
2026-01-06 15:17:00
500
原创 大模型skill理解与实践
每条结论一句话行动项结构化“”“读取并总结PDF文档”“”# … 后续总结逻辑何时使用用户上传了一份文档(PDF、Word等)并要求分析其内容。用户的问题需要结合特定文档内容和外部最新信息来回答。用户要求对复杂主题进行多步骤调研和分析。如何调用确保用户已提供待分析的文档文件。将用户的分析请求和文档路径(或文件)作为参数。端点请求体示例 (JSON):{"query": "请总结这份文档的核心观点,并查找2024年关于文中‘存算一体’技术的最新商业新闻。",
2026-01-05 17:50:07
4931
原创 Linux下python matplotlib画图修改中文字体 (小方块)
在 Linux 环境下解决 matplotlib 绘图中文显示异常(乱码/方框)的问题,可通过以下步骤配置中文字体支持:完整解决方案。
2025-12-29 15:40:55
603
原创 paper阅读:Improving Language Understanding by Generative Pre-Training
公式L1U∑ilogPui∣ui−kui−1;Θ定义了无监督预训练阶段的语言模型目标函数,通过最大化每个词元在其前kkk个词元上下文条件下的对数概率之和,来训练神经网络模型Θ\ThetaΘ。这本质上是在最小化整个语料库的负对数似然,促使模型学习如何根据历史信息准确预测下一个词,从而捕获语言的内在结构和模式。
2025-12-18 11:30:26
1038
原创 LLM底层秘密—Transformer原理解析
语言模型的发展经历了从 BERT、GPT 到今天的多模态大模型的快速演进。传统 Transformer 在处理长文本、关键信息检索以及对抗幻觉等任务时,常常因过度关注无关上下文而陷入困境,导致模型表现受限。为解决这些问题,研究人员提出了多种改进方案,如 DIFF Transformer、Energy-Based Transformer 等新型架构。Transformer、MoE 灵活搭配成为主流,也逐渐有加入等新兴架构做混合架构的尝试,据不完全统计,超过一半新发布模型采用混合架构。这种架构创新也许可以打破
2025-12-09 15:11:52
1020
原创 CPU 基础
介绍完上述 CPU 的基本组件,我们由浅入深用一张现代 CPU 架构图作为本节内容的结尾。如下图所示的是一张英特尔酷睿 CPU 的架构图,从复杂的控制流程中,我们还是可以清晰的看到 ALU,MU 以及 CU 这些我们刚刚学习过的内容,当然读者朋友要是想设计这么一张架构图还是需要很多的知识储备的。
2025-12-08 17:00:27
949
原创 计算之比特位宽
在计算机科学中,整数和浮点数是两种基本的数据类型,它们在计算机中可以用不同长度的比特表示,也就是比特位宽,比特位宽决定了它们的表示范围和数据精度。下面我们一起回顾一下计算机中整数和浮点数的表示定义。
2025-12-04 14:30:29
873
原创 AI 芯片核心计算之矩阵乘
AI 模型中往往包含大量的矩阵乘运算,该算子的计算过程表现为较高的内存搬移和计算密度需求,所以矩阵乘的效率是 AI 芯片设计时性能评估的主要参考依据。本节我们一起来看一下矩阵乘运算在 AI 芯片的具体过程,了解它的执行性能是如何被优化实现的。
2025-12-04 10:03:09
1056
原创 AI 芯片关键设计指标
前面我们已经对 AI 的计算模式有了初步的认识,那么这些计算模式具体是如何和 AI 芯片设计结合起来的呢?接下来我们将从 AI 芯片关键设计指标的角度来进一步拓展对 AI 计算体系的思考。
2025-12-03 10:06:08
968
原创 paper:attention is all you need附录Attention Visualizations 注意力可视化
图 3:一个例子展示了在编码器自注意力机制第 5 层(共 6 层)中,注意力机制如何关注长距离依赖关系。许多注意力头关注动词“making”的远距离依赖关系,从而完成短语“making. . .more difficult”。图 4:两个注意力头,位于 6 层中的第 5 层,显然参与了指代消解。顶部:注意力头 5 的完整注意力。底部:注意力头 5 和 6 中仅来自单词“its”的隔离注意力。我们在上面给出了两个这样的例子,来自第 5 层(共 6 层)编码器自注意力机制中的两个不同的头。
2025-12-02 11:54:07
320
原创 AI 计算模式(下)
了解 AI 计算模式对 AI 芯片设计和优化方向至关重要。本节将会接着从轻量化网络模型和大模型分布式并行两个主题来深入了解 AI 算法的发展现状,引发关于 AI 计算模式的思考。
2025-12-02 10:32:42
900
原创 AI 计算模式(上)
现在我们已经了解到了神经网络模型的一些特点,比如模型深度高,每层的通道多,这些都会导致训练好的模型权重数据内存较大,另外,训练时候为了加速模型的收敛和确保模型精度,一般都会采用高比特的数据类型,比如 FP32,这也会比硬件的计算资源带来很大的压力。**针对不同领域,如计算机视觉、语音、自然语言处理,AI 模型具有不同形式的设计,但是作为 AI 芯片,需要尽可能全的支持所有应用领域的模型,并且支持未来可能出现的新模型结构,这样在一个漫长的芯片设计到流片的周期中,才能降低研发成本,获得市场的认可。
2025-12-01 17:03:33
853
原创 什么是 AI 芯片
首先我们了解一下芯片是什么?芯片的本质就是在半导体衬底上制作能实现一系列特定功能的集成电路。在发现半导体之前,人类只能用机械控制电,而半导体却能直接“用电来控制电”。计算机是我们日常生活中常见的工具,可以通过数字形式存储古往今外的人类文明信息,计算机里任何复杂功能,还原到最底层都能用 0 和 1 解决,进而可以通过半导体开关的通断,绕过机械维度,直接去操控微观的电子来处理信息。通过芯片这个物理接口,创造了我们今天的数字世界,让人类进入到一半物质世界一半数字世界的新时代。
2025-12-01 14:44:46
1023
原创 paper阅读:Attention Is All You Need 注意力是你所需要的一切
缩放点积注意力公式AttentionQKVsoftmaxQKTdkVAttentionQKVsoftmaxdkQKTV是Transformer模型的核心组成部分,它通过计算查询与键的点积相似度,并进行适当缩放和 softmax 归一化,得到注意力权重,再将这些权重应用于值向量进行加权求和,从而高效地捕捉序列中的长距离依赖关系,并生成富有信息量的上下文表示。其缩放机制对于在大维度下稳定训练至关重要。
2025-11-28 16:01:13
696
原创 6.文本理解和生成大模型
首先来看下如何定义信息检索(IR)任务。给定一个queryqqq给定一个文档库D⋯di⋯D⋯di⋯IR系统计算相关系数得分fqdif(q,d_i)fqdi,然后根据该得分进行排序一个典型的IR系统分为两个阶段:检索和重排阶段。在检索阶段,针对整个文档库,从中找到相关文档的子集,它重视的检索速度和相关文档的召回率;在重排序阶段针对上一步得到的少量文档进行精排,看重的是性能和效果。神经网络IR。
2025-11-21 17:46:41
1093
原创 5.高效训练&模型压缩
比较一下这三个阶段的显存占比:在第1阶段中,每张显卡只需要处理一部分的模型梯度,优化器降低到了原来的显卡数分之一,同时把中间结果的量也降低到原来的卡数分之一;第2阶段中,进一步地把模型的梯度划分提前,把Reduce Scatter提前到了反向传播的过程中,实际上不需要保留完整的梯度。第3阶段中,进一步地划分参数。通过这三部分的优化,显卡上的四大组成部分:参数、梯度、优化器和中间结果都得到了划分,每张显卡只需要保持自己的那部分参数。本小节介绍BMTrain性能上的提升。
2025-11-21 17:34:14
585
原创 4.Prompt Tuning & Delta Tuning
使用encoder作为PLMs的基本编码器Fine-tuning为特定任务添加额外的神经网络微调所有参数pre-training和fine-tuning之间存在差距。pre-training以mask的方式进行训练,而fine-tuning以QA的方式进行微调,存在差距。delta tuning在超大规模的模型上非常高效它的结构随着模型的增加变得越发不重要干净:不需要编辑backonePTM的代码。简单:从全模型tuning迁移到delta-tuning只需要3行代码。
2025-11-21 16:40:45
899
原创 3.Transformer基础
给定一个query向量和一组value向量,注意力技术根据query计算值的加权和根据查询,加权和是值的选择性汇总。可以通过注意机制获得任意一组表征的固定大小的表征。如果存在value向量h1h2hN∈Rd1h1h2hN∈Rd1,query向量s∈Rd2s∈Rd2根据注意力分数e∈RNe∈RN,计算得到注意力输出o∈Rd1o∈Rd1αsoftmaxe∈RNαsoftmax。
2025-11-21 11:59:07
1007
原创 深入理解AI Agent的“灵魂”:上下文工程(Context Engineering)
然而,业内的共识是:多数AI Agent的失败,并非模型能力的失败,而是上下文工程(Context Engineering)的失败。我们的工作重心,正不可逆转地从“如何找到那句完美的提示词”,转向“如何设计一个能够为模型在每一步都动态组装出完美上下文的、健壮可靠的系统”。归根结底,请记住:无论是精巧的提示词、强大的RAG,还是标准化的MCP,它们都指向同一个目标——在模型做出决策之前,为它准备好一份恰到好处的上下文。这类上下文的核心功能是告诉模型能做什么以及做了之后的结果,赋予模型与外部世界交互的能力。
2025-11-10 17:13:36
422
原创 上下文工程 (Context Engineering)
在本文中,我们通过回顾各种流行的智能体和论文,剖析了一些常见的上下文工程策略——写入(write)、选择(select)、压缩(compress)和隔离(isolate)。我们将常见的智能体上下文工程策略分为四个类别——写入(write)、选择(select)、压缩(compress)和隔离(isolate)——并通过回顾一些流行的智能体产品和论文来给出每个类别的示例。模式的一个字段(例如,messages)可以在智能体的每个回合暴露给 LLM,但该模式可以将信息隔离在其他字段中,以供更有选择性地使用。
2025-11-10 16:29:58
908
原创 大模型之思维链(cot)
思维链(CoT)提示过程是一种最近开发的提示方法,它鼓励大语言模型解释其推理过程。下图显示了 few shot standard prompt(左)与链式思维提示过程(右)的比较。思维链的主要思想是通过向大语言模型展示一些少量的 exemplars,在样例中解释推理过程,大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。
2025-11-07 11:41:38
1148
原创 大模型之langchain
LangChain Agent 是框架中驱动决策制定的实体。它可以访问一组工具,并可以根据用户的输入决定调用哪个工具。代理帮助构建复杂的应用程序,这些应用程序需要自适应和特定于上下文的响应。当存在取决于用户输入和其他因素的未知交互链时,它们特别有用。LangChain model 是一种抽象,表示框架中使用的不同类型的模型。LLM(大型语言模型):这些模型将文本字符串作为输入并返回文本字符串作为输出。它们是许多语言模型应用程序的支柱。聊天模型( Chat Model)
2025-11-07 11:36:09
1077
原创 大模型之大模型评测
这两种方法在评测语言模型和机器翻译等任务时起着重要的作用。自动评测方法基于计算机算法和自动生成的指标,能够快速且高效地评测模型的性能。而人工评测则侧重于人类专家的主观判断和质量评测,能够提供更深入、细致的分析和意见。了解和掌握这两种评测方法对准确评测和改进语言模型的能力十分重要。
2025-11-07 11:11:01
348
原创 大模型之大模型幻觉
在语言模型的背景下,幻觉指的是:看似流畅自然的表述,实则不符合事实或者是错误的。幻觉现象的存在严重影响LLM应用的可靠性,本文将探讨大型语言模型(LLMs)的幻觉问题,以及解决幻觉现象的一些常见方法。
2025-11-07 11:00:59
971
原创 大模型之检索增强llm
检索增强 LLM ( Retrieval Augmented LLM ),简单来说,就是给 LLM 提供外部数据库,对于用户问题 ( Query ),通过一些信息检索 ( Information Retrieval, IR ) 的技术,先从外部数据库中检索出和用户问题相关的信息,然后让 LLM 结合这些相关信息来生成结果。下图是一个检索增强 LLM 的简单示意图。OpenAI 研究科学家 Andrej Karpathy 前段时间在微软 Build 2023 大会上做过一场关于 GPT 模型现状的分享。
2025-11-07 10:45:25
739
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅