自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(107)
  • 收藏
  • 关注

原创 大模型真正走向持续学习

大模型落地的核心诉求是。

2026-02-10 20:26:57 733

原创 laude Opus 4.6 与 GPT-5.3-Codex

在 GDPval-AA(一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试)中, Opus 4.6 的表现比业界次优模型(OpenAI 的 GPT-5.2)高出约 144 个 Elo 分数,比其前身(Claude Opus 4.5)高出 190 分。在这代模型上,规划更加谨慎,能够维持更长时间的自主工作流程,并在关键的企业基准测试中超越了包括 GPT-5.2 在内的竞争对手。看起来,在未来加入 AI 的工作流程中,人的角色已经从编写代码转变为构建让 AI 能够编写代码的环境。

2026-02-06 18:35:18 677

原创 AI训练模型(静态学习到持续学习)

问大家一个问题:是否又被AI目前取得的成绩而惊叹?确实,目前AI在所有行业都是非常火热的存在。但是我们又无法回避一个问题,这就是AI的最终形态吗?AI的训练成本如此昂贵,以至于现在的模型玩家只有手握大量GPU资源的大厂,几乎很难见到小厂玩家。并且目前模型都是静态模型,对于动态的持续学习模型几乎没有人去加以研究。今天我就来详细讨论一下这几个问题。

2026-02-06 15:20:54 592

原创 DeepSeek-V4架构详解

有趣的是,这些提升并不限于知识密集型任务(例如,MMLU: +3.0,MMLU-Pro: +1.8,CMMLU: +4.0),在这些任务中,内存容量直观上是有益的。此外还观察到,在一般推理领域(例如,BBH: +5.0,ARC-Challenge: +3.7,DROP: +3.3)以及代码和数学推理任务(例如,HumanEval: +3.0,MBPP: +1.6,GSM8K: +2.2,MATH: +2.4)中,改进更加显著。因此,Engram 的最优插入位置必须同时满足建模性能与系统时延两方面的约束。

2026-01-13 16:24:33 1606

原创 开源模型如何盈利

🍋🍋AI学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。当下 AI 大厂选择开源模型,—— 从「闭源模型独占」转向「开源生态主导」,看似 “让利”,实则是构建更深的技术壁垒、商业护城河和行业话语权,完全符合大厂的长期战略利益。下面从。

2026-01-13 15:05:22 1018

原创 多模态RAG

M2RAG(Multimodal Retrieval-Augmented Generation)基准是一个专门设计用于评估多模态大语言模型(MLLMs)在检索增强生成任务中表现的综合性基准。M²RAG 包含四个任务:图像描述、多模态问答、多模态事实验证和图像重排序。这些任务都设置在开放域环境中,要求 RAG 模型从多模态文档集合中检索与查询相关的信息,并将其作为输入上下文用于生成回答。为了增强 MLLMs 在利用多模态上下文方面的能力,研究者还提出了多模态检索增强指令调优(MMRAIT)方法。

2025-12-31 18:21:12 811

原创 量化零阶微调(Quantized Zeroth-order Optimization Fine-tuning, QuZO)

在当前的自然语言处理(NLP)领域,微调预训练的大型语言模型(LLMs)已经成为了标准做法。然而,随着LLMs的规模不断扩大,由于需要进行反向传播(BP)来计算一阶(FO)优化器的梯度,如随机梯度下降(SGD)和Adam,导致内存开销巨大,成为一个显著的挑战。这种挑战在内存效率至关重要的应用中尤为突出,如设备上的训练。

2025-12-31 16:23:55 1040

原创 RAG开发介绍

随着ChatGPT的兴起,大语言模型再次走进人们的视野,其在NLP领域表现出的语言识别、理解以及推理能力令人惊叹。越来越多的行业开始探索大语言模型的应用,比如政务、医疗、交通、导购等行业。通义系列、GPT系列、LLama系列等模型,在语言交互场景下表现十分抢眼。以Gemini为代表这类大模型甚至发展出了视觉和听觉,朝着智能体的方向演化。他们在多个指标上展现的能力甚至已经超过了人类。

2025-12-19 16:21:28 1356

原创 Prompt Tuning

PromptTuning(提示调优)是一种参数高效的大模型适配技术,属于 PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)的分支,核心目标是用极少的训练成本,让大模型快速适配特定任务的输出格式 / 风格 / 能力—— 比如你的体检报告质控需要模型「稳定输出 JSON 结构化结果、不漏检异常指标」,居家养老机器人需要模型「固定用温和的家人语气回复」,这些都可以通过 PromptTuning 实现。它和你之前了解的全参数微调、LoRA、DPO/RLHF技术类型。

2025-12-16 21:17:43 928

原创 LoRA微调

LoRA微调详解

2025-12-16 20:27:31 384

原创 RLHF微调场景

🍋🍋AI🍋🍋,只有在以下,才值得投入资源使用 RLHF。

2025-12-16 18:10:51 295

原创 DPO微调

DPO

2025-12-16 17:12:07 989

原创 RAG系统-重排序与多跳检索

单跳检索:一次 query → 一次检索 → 得到答案(适用于简单事实问答)。多跳检索:需要多次检索 + 推理才能回答的问题。🌰 经典例子(HotpotQA 数据集):TensorFlow 是谁开发的?→ GoogleGoogle 的创始人是谁?最终得到答案。

2025-12-16 15:42:10 642

原创 MoE架构

MoE 的前馈网络内部仍然是“升维→激活→降维”的 FFN不止一个 FFN,而是多个专家并存,由门控网络为每个 token 动态选择少数专家执行, 这样可以在保持计算成本可控的同时显著扩大模型容量与表示能力。

2025-12-15 18:10:32 451

原创 AI音色克隆

技术价值降低内容创作门槛提供个性化体验帮助有需要的人群伦理考量声音版权保护防止滥用(如诈骗)隐私保护作为技术爱好者,我们既要拥抱技术的进步,也要关注技术的合理应用。毕竟,技术的最终目的是让生活变得更美好。音色克隆技术的发展让我们看到了 AI 理解和模仿人类声音的巨大潜力。从最初需要大量数据训练,到现在只需几秒音频就能实现高质量克隆,技术的进步令人惊叹。如果你对这个领域感兴趣,不妨从一些开源项目开始尝试。也许在不久的将来,你也能开发出属于自己的音色克隆应用。

2025-12-05 17:29:20 1681

原创 向量数据库更新匹配

🍋🍋AI🍋🍋面对医疗数据标准化的复杂挑战,传统的解决方案主要依赖人工整理和规则匹配,但这些方法在面对现代医疗信息化的需求时,已经显露出明显的局限性。

2025-12-04 20:10:24 730

原创 多Agent协同-详解

🍋🍋🍋🍋。

2025-11-10 22:24:47 794

原创 2025-Agent解析

LangGraph是LangChain生态系统的核心组件,专门用于构建基于图结构的复杂工作流和Agent系统。相比传统的链式调用,LangGraph提供了更强大的流程编排能力。核心优势:结构化工作流:支持分支、循环和条件逻辑状态管理:强大的上下文维护机制可视化监控:与LangSmith深度集成可扩展性:易于集成自定义组件​"""Agent状态定义"""query: strAI Agent架构:决策层、执行层、交互层的三层架构模型。

2025-11-10 20:39:20 879

原创 向量模型BGE-M3

近日,智源发布了BGE家族新成员——通用语义向量模型BGE-M3,支持超过100种语言,具备领先的多语言、跨语言检索能力,全面且高质量地支撑“句子”、“段落”、“篇章”、“文档”等不同粒度的输入文本,最大输入长度为 8192,并且一站式集成了稠密检索、稀疏检索、多向量检索三种检索功能,在多个评测基准中达到最优水平。模型也可以,通过联合多种检索方式的输出,可以取得比单检索模式更好的效果。具体来说,合并三种检索模式的输出,得到新的文本相似度分数,将其作为激励信号,让各单模式学习该信号,以提高单检索模式的效果。

2025-10-18 17:13:38 1074

原创 milvus向量数据库

🍋🍋🍋🍋Milvus 是一款开源的向量数据库(2019年提出),其唯一目标是存储、索引和管理由深度神经网络和其他机器学习(ML)模型生成的大规模。作为一个专门设计用于处理输入向量查询的数据库,它能够处理万亿级别的向量索引。与现有的关系型数据库主要处理遵循预定义模式的结构化数据不同,Milvus 从底层设计用于处理从非结构化数据转换而来的嵌入向量。随着互联网的发展和演变,非结构化数据变得越来越常见,包括电子邮件、论文、物联网传感器数据、Facebook 照片、蛋白质结构等等。

2025-10-18 14:50:56 796

原创 Agent向量存储中的记忆衰退与记忆过载解决方案

在人工智能领域,Agent 作为能够感知环境、自主决策并执行任务的智能体,其长期记忆的管理至关重要。向量存储作为一种高效的数据存储和检索方式,在 Agent 的长期记忆管理中发挥着关键作用。

2025-10-18 14:42:01 1000

原创 全参数与PEFT深度剖析

基于上述对比分析,全参数微调更适合于拥有充足计算资源和大规模高质量数据集,且对模型精度有极致要求的场景。在科研领域,如对宇宙天体数据的分析、药物研发中的分子结构分析等,需要模型能够精准捕捉数据中的复杂特征和规律,全参数微调可以充分发挥其优势。在工业生产中的质量检测环节,如果需要对产品进行高精度的缺陷检测,全参数微调也能通过对大量样本的学习,实现精准的判断。而 PEFT 则在资源受限的环境中表现出色,适用于数据量相对较小、计算资源有限但又需要快速实现模型定制化的场景。

2025-10-12 19:55:22 680

原创 GPT系列模型-详解

维度核心目标验证 Transformer 解码器的可行性探索零样本能力实现通用上下文学习参数规模1.17 亿15 亿(×13)1750 亿(×117 vs GPT-2)训练数据8 亿 token(单一书籍)400 亿 token(WebText)1.7 万亿 token(多源混合)能力范式预训练 + 微调(任务特定)零样本学习(无微调)上下文学习(Few-Shot / 提示驱动)技术突破首次用 Transformer 做自回归生成Pre-Norm + 数据多样性提升。

2025-10-09 15:44:56 1729

原创 LangChain详解(二)

🍋🍋🍋🍋。

2025-10-07 20:14:05 790

原创 LangChain详解(一)

🍋🍋🍋🍋LangChain目前有两个语言的实现:python、nodejs。

2025-10-07 11:38:25 955

原创 RAG开发

🍋🍋🍋🍋LLM的知识不是实时的,模型训练好后不具备自动更新知识的能力,会导致部分信息滞后LLM领域知识是缺乏的,大模型的知识来源于训练数据,这些数据主要来自公开的互联网和开源数据集,无法覆盖特定领域或高度专业化的内部知识幻觉问题,LLM有时会在回答中⽣成看似合理但实际上是错误的信息数据安全性RAG(Retrieval-Augmented Generation)即检索增强生成,为大模型提供了从特定检索到的信息,以此来修正和补充生成的答案。

2025-10-06 18:06:42 1124

原创 大模型PEFT参数高效微调

PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)是一种针对大模型微调的优化技术,核心思想是,而非全量微调,在保持模型性能接近全量微调的同时,大幅降低计算资源消耗和存储成本。

2025-10-02 12:04:03 968

原创 LLM精度

格式位数内存占用(7B模型)主要优点主要缺点典型应用FP3232~28 GB精度高,稳定性好内存大,速度慢标准训练,基准测试FP1616~14 GB速度快,内存减半易数值溢出混合精度训练,推理BF1616~14 GB范围同FP32,不易溢出精度较低大规模模型训练INT88~7 GB内存极小,推理极快精度损失风险大资源受限的推理。

2025-09-27 14:51:15 987

原创 大语言模型(LLM)类型概述

🍋🍋🍋🍋大语言模型 (英文:Large Language Model,缩写LLM) 是一种人工智能模型, 旨在理解和生成人类语言. 大语言模型可以处理多种自然语言任务,如文本分类、问答、翻译、对话等等.通常, 大语言模型 (LLM) 是指包含数千亿 (或更多) 参数的语言模型(目前定义参数量超过10B的模型为大语言模型),这些参数是在大量文本数据上训练的,例如模型 GPT-3、ChatGPT、PaLM、BLOOM和 LLaMA等.

2025-09-25 21:55:45 707

原创 AI模型压缩-详解

🍋🍋AI学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞模型压缩的四种主流技术:Pruning 剪枝:Quantization 量化:Knowledge distillation 知识蒸馏:Low-rank factorization 低秩因式分解:实际部署的时候需要一些模型加速的方法,每种框架除了fp32精度外,都支持了int8的精度,而量化到int8常常可以使我们的模型更小更快,所以在部署端很受欢迎

2025-09-17 21:28:19 812

原创 Transformer架构(详解)

🍋🍋🍋🍋:将输入序列压缩成一个富含语义信息的。:根据这个上下文矩阵,像“猜谜”一样,一步步自回归地生成目标序列。

2025-09-06 19:52:14 1095

原创 Attention机制(详解)

🍋🍋🍋🍋。

2025-08-28 21:00:45 1049

原创 CNN卷积神经网络

相当于拿着放大镜在图片上面移动,每一次滑动就会记录下区域多像“垂直线”或者“圆弧”,最终形成一张“显线索热度图”,->这就是特征图。因为线索太多,而且很多都是重复的,需要进行降维。这样就需要(pooling),只保留每个区域最明显的线索,其它的不要。🎯 结果:特征图变小了(分辨率降低),但关键信息还在,而且计算量大大减少!🧩经过上述两步:现在,第二波更高级的探员入场!他们不再看“线”,而是看“组合形状他们用第一层输出的“边缘图”作为输入开始寻找:“这个区域有没有像‘猫眼睛’的组合?或者:“

2025-08-22 22:03:00 1263

原创 神经网络(激活函数)

🍋🍋🍋🍋。

2025-08-11 21:04:47 822

原创 神经网络(正向传播与反向传播)

在正向传播过程中:1.首先从输入层到隐藏层经过线性变换得到输出值Z,再将输出值经过应用激活函数得到该层的的激活输出A。二分类问题:Sigmoid 激活函数,其输出范围为 (0, 1),适合表示概率。多分类问题:Softmax 激活函数,用于将多个输出值转换为概率分布。回归问题:可能不使用激活函数或使用线性激活函数。最终计算得到最后一层的输出,也就是我们的预测值。

2025-08-10 20:01:14 1004

原创 flume

Event输入/输出速率(event.received.count / event.delivered.count)Multiplexing Channel Selector:根据Header路由到指定Channel。Replicating Channel Selector:复制到所有Channel。Channel填充率(channel.capacity.percentage):通过Channel Selector确定写入哪个Channel。:Sink处理成功后通知Channel删除Event。

2025-07-01 17:27:16 1125

原创 flink

Source: 数据源,Flink 在流处理和批处理上的 source 大概有 4 类:基于本地集合的 source、基于文件的 source、基于网络套接字的 source、自定义的 source。Flink的所有操作都称之为Operator,客户端在提交任务的时候会对Operator进行优化操作,能进行合并的Operator会被合并为一个Operator,合并后的Operator称为Operator chain,实际上就是一个执行链,每个执行链会在TaskManager上一个独立的线程中执行。

2025-07-01 14:52:51 1044

原创 大数据-数仓

ods:operation data store原始数据层, 数据保持原貌不做处理,ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响dmi:公共维度层 公共维度层由维度表构成,基于维度建模理念,建立整个企业的一致性维度。dwd:data warehouse detail明细数据层 结构和粒度与原始表保持一致,通过维表与ods层数据进行清洗关联得到(去除空值,脏数据) 是业务层与数据仓库的隔离层dws:data warehouse service数据服务层 数据轻度汇总。

2025-07-01 08:00:00 933

原创 spark

Spark,是一种通用的大数据计算框架,也正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等,Spark包含了大数据领城常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MILlib用于机器学习,Spark GraphX用于图计算。而spark计算过程可以分为n个阶段,因为他是内存迭代式的,我们在处理完一个阶段之后,可以继续往下处理很多阶段,而不是两个阶段。

2025-06-30 20:17:35 1287 1

原创 Hive架构

Hive是基于Hadoop的数据仓库工具。可以用于存储在Hadoop集群中的HDFS文件数据集进行数据整理、特殊查询和分析处理。Hive提供了类似于关系型数据库SQL语言的HiveQL工具,通过HiveQL可以快速实现简单的MapReduce统计。Hive的本质就是将HiveQL语句转换为MapReduce任务后运行,非常适合做数据仓库的数据分析。

2025-06-30 20:16:44 1336

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除