- 博客(580)
- 收藏
- 关注
原创 enable-chunked-prefill这个参数什么意思
就是告诉 vLLM:“遇到长文本别一次全吞下去,切成小块慢慢处理,这样显存更稳,还能同时服务其他用户”不开分块:想一口吞掉整个 12寸披萨(容易噎着)开启分块:切成 8 块,细嚼慢咽(稳妥但稍微慢点)
2026-03-02 20:51:11
555
原创 float16, bfloat16, float/float32 有什么区别
核心差异:BF16 侧重数值范围(8 位指数),FP16 侧重小数精度(10 位尾数);使用场景:训练(尤其是大模型/数据中心 GPU)优先 BF16,推理(消费级 GPU)优先 FP16;硬件适配:BF16 依赖高端 GPU,FP16 兼容性更广,是 Agent 项目的通用选择。基础等价关系:float = float32(32 位全精度),float16/BF16 是 16 位格式,显存仅为前者的一半;核心取舍。
2026-03-02 20:25:04
818
原创 模型训练过程
前向传播:走到最后才真正用到标签(算loss的时候)反向传播:已经不直接看标签了,它只看“损失函数对我的不满程度(梯度)”,然后把这个不满一层一层向后传递,告诉每一层“你这里要负多大责任”
2026-02-01 14:42:21
751
原创 上下文窗口压缩时,尾>头>中间
注意力机制的天然衰减 + 累积效应Transformer的自注意力是因果的(causal),前面的token会被后面所有token“多次看到”(每个后续token都会计算一次对它的注意力),而中间的token只会被后面的部分token看到。这导致开头(primacy bias)被过度强化(attention sink现象,很多注意力都“沉”在开头,甚至是BOS token上)。结尾(recency bias)因为是最近的,总是当前生成时的“新鲜”信息,也天然被优先。
2026-02-01 13:43:46
539
原创 在AI领域,世界模型是什么?
通俗理解:就像人类开车时会在脑中预判"如果我左转,前方车辆会如何反应",世界模型让AI拥有类似的**“内心模拟器”**。技术定义状态表征(State Representation):压缩感知输入(图像、文本、传感器数据)为关键状态的抽象表示转移模型(Transition Model):预测"如果我采取行动A,世界状态如何从S变为S’"代价/目标模型:评估预测状态的好坏。
2026-01-30 10:08:34
709
原创 浅谈 强化学习
找到一个策略 π,使得长期累积奖励的期望最大:(γ 叫折扣因子,通常 0.95~0.99,代表“未来的奖励要打折”)强化学习 = 通过大量试错 + 稀疏的奖励信号,学会在没有标准答案的情况下做出长期最优决策。强化学习├── 基于价值(Value-based)├── 基于策略(Policy-based)│ └── Actor-Critic 家族(A2C / A3C / PPO / SAC / TD3 …)├── 基于模型(Model-based)
2026-01-29 22:21:55
589
原创 浅谈 HNSW
我来给你详细讲解HNSW(Hierarchical Navigable Small World)算法,这是一个用于高效近似最近邻搜索的算法。
2026-01-27 16:37:07
1056
原创 浅谈 知识图谱
知识图谱的终极意义,是帮人类和机器共同构建对世界的结构化认知。它不炫技,却让搜索更聪明、推荐更贴心、AI更可靠——你学习的每一步(抽取→构建→存储),都在参与建造这个“数字常识世界”。保持这份好奇,你正在成为连接数据与智能的关键力量!(◍•ᴗ•◍)有任何具体场景想探讨(“医疗图谱怎么用?”“怎么自己做个电影推荐图谱?”),我随时为你点亮💡~传统RAG:快、便宜、易上手,但“理解关系浅、容易漏信息”知识图谱:精准、可解释、强推理,但构建贵、维护难GraphRAG。
2026-01-27 12:18:17
864
原创 bfloat16 和 float16区别
选 bfloat16:做深度学习训练,尤其是大模型,需要稳定的梯度动态范围选 float16:做推理部署或图形计算,需要更高精度且硬件不支持 bfloat16目前主流大模型(如 GPT-4、Claude、DeepSeek 等)的训练普遍采用bfloat16或bfloat16 + float32 混合精度。
2026-01-25 21:19:29
457
原创 蒙特卡洛树搜索 是什么
蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)是一种,核心是通过“采样+统计”的方式,在复杂决策空间中高效探索最优路径,广泛用于博弈(如围棋、国际象棋)、规划、强化学习等领域。
2026-01-14 11:06:11
778
原创 Micro 和 Macro 区别
Micro TP/FP/FN 和一般(Macro)TP/FP/FN 的根本区别在于计算策略和权重分配Micro:先汇总所有预测,再计算指标,每个预测同等重要Macro:先计算每个类别的指标,再平均,每个类别同等重要选择正确的评估指标匹配业务需求准确解读模型性能报告针对性地改进模型在特定类别上的表现与领域专家进行有意义的性能讨论在实际应用中,没有"最好"的方法,只有"最适合当前任务"的方法。明智的做法是理解两种方法的优缺点,根据具体应用场景选择合适的评估策略,或同时报告两种结果以获得全面视角。
2025-12-15 18:11:39
781
原创 bfloat16 和 float16 有什么区别
特性BF16FP16范围大(同 float32)较小精度较低(7 位尾数)较高(10 位尾数)训练稳定性更稳定(不易溢出)需 loss scaling硬件支持广泛(Pascal+ GPU)设计初衷机器学习优化通用半精度计算# PyTorchmodel.half() # 转为 FP16model.to(torch.bfloat16) # 转为 BF16选择适合的格式。维度位数布局1-8-7(1 符号,8 指数,7 尾数)1-5-10(1 符号,5 指数,10 尾数)动态范围。
2025-12-06 17:47:02
1145
原创 input_ids和attention_mask 是什么关系
没有attention_mask,模型会将填充部分也视为有效输入,导致预测结果不准确且不可靠。注:0通常是[PAD] token的ID,101可能是[BOS](开始)token的ID。在论文检索agent的。
2025-12-04 22:55:19
418
原创 开放域 是什么意思
在你这篇论文的上下文中,“开放域”强调模型不依赖于特定领域知识,能够处理广泛主题下的长文本问题,这也是 RAG 方法的一个重要优势——通过检索外部知识,增强模型在开放环境下的问答能力。
2025-11-22 10:17:09
346
原创 source ~/.bashrc
这个命令是用来刷新配置的 ,不用开一个新的终端,就可以使配置生效这个指令是等类 Unix 系统中一个非常基础且重要的命令。.bashrc。
2025-11-19 11:50:00
834
原创 什么是仿真实验
仿真实验(Simulation Experiment)是指在计算机上构建一个对现实系统或理论模型的抽象和模拟,然后在这个模拟环境中进行实验,以观察系统行为、验证假设、测试算法性能等。仿真实验 = 用程序“假装”一个真实世界或理论场景 + 在里面做实验。
2025-11-18 15:17:55
677
原创 InternLM 是什么
是由(Shanghai AI Laboratory)联合多家机构(如商汤科技、复旦大学、上海交通大学等)研发的一系列(LLM)。该系列模型旨在推动大模型技术的研究与应用,具有较强的中文理解和生成能力,同时也支持多语言。
2025-11-17 20:43:00
506
原创 什么是生成模型
Transformer 不是生成模型,而是一种可以用来构建强大生成模型(如 GPT)或判别模型(如 BERT)的通用架构。如果你感兴趣,我也可以解释为什么 GPT 用 Decoder 而 BERT 用 Encoder,以及它们在生成能力上的根本区别 😊GPT(Generative Pre-trained Transformer)是一种典型的生成模型。
2025-11-13 21:06:58
902
原创 马尔可夫决策过程是什么
MDP 是一种用状态、动作、转移概率、奖励和折扣因子来描述序贯决策问题的数学模型。它的核心假设是马尔可夫性:未来只取决于现在,与过去无关。目标是找到最优策略,使长期累积奖励最大。广泛应用于机器人控制、游戏 AI、资源调度、金融投资等领域。如果你感兴趣,我还可以用 Python 代码演示一个简单的 Grid World 的值迭代过程!
2025-11-12 19:25:11
510
原创 F1、精确率、召回率
F1值是 Precision 和 Recall 的调和平均(Harmonic Mean)F12⋅Precision⋅RecallPrecisionRecallF1PrecisionRecall2⋅Precision⋅Recall取值范围:0 到 1;值越接近 1,说明模型在查准和查全两方面都表现良好;特别适用于类别不平衡(如正样本很少)的场景。
2025-11-12 14:54:31
785
1
原创 涌现能力 是什么
非连续性:性能不是平滑提升,而是在某个规模“突然跳升”。不可预测性:无法通过小模型的表现线性外推得知大模型会有此能力。任务特定性:通常出现在需要多步推理或组合技能的任务上。涌现能力 = 大模型在规模突破临界点后,突然获得的、小模型完全不具备的新技能。它体现了“量变引起质变”的AI发展规律,也是推动模型不断扩大的核心动力之一。这一概念深刻影响了 AI 研究方向:与其一味优化小模型,不如探索更大规模带来的“智能跃迁”。
2025-11-11 17:56:55
1077
原创 CoT 和 CoT-SC的区别
特性CoTCoT-SC推理路径数量1 条多条(如 5~20 条)是否投票否是(多数投票)鲁棒性较低(易受单次错误影响)较高(通过一致性过滤错误)计算开销低高(需多次前向推理)典型应用场景简单推理、快速响应高精度要求任务(如数学、代码、逻辑题)
2025-11-11 15:54:58
757
原创 AUTOACT论文翻译
语言智能体通过结合外部工具进行规划,在各种复杂问答任务中取得了显著性能。尽管该领域不断探索,现有语言智能体系统仍面临数据依赖成本高、结果难以复现,以及迫使单一模型承担多种功能等挑战。为此,我们提出AUTOACT,一个无需依赖大规模标注数据或闭源模型(如GPT-4)合成规划轨迹的自动智能体学习框架。在仅有少量数据和工具库的情况下,AUTOACT首先自动合成规划轨迹,无需人类或强闭源模型的参与。随后,AUTOACT基于目标任务信息和合成轨迹,采用分工策略自动分化,生成一个子智能体群体以协作完成任务。
2025-11-09 22:42:46
1093
原创 AVATAR图4 验证性能(validation performance)和 移动平均值(moving average)
这种“即时性能+趋势平滑”的展示方式,能帮助读者全面理解AVATAR在迭代过程中的优化动态——既看到每一步的尝试效果,又能把握整体的改进方向。
2025-11-06 11:36:34
281
原创 Retroformer 策略梯度优化 和 回溯模型
在论文语境中,策略梯度优化是一种通过“环境反馈调整智能体行为策略”的强化学习方法,核心目标是让智能体(如LLM Agent)学习“更易获得高回报的动作序列”(如更优的工具调用顺序、参数设置)。其本质是将智能体的“行为策略”(如生成工具调用代码的逻辑)视为可优化的参数化模型,通过计算“策略参数对回报的梯度”,迭代更新策略以提升任务性能。在论文语境中,回溯模型是Retroformer用于**“分析历史失败经验、生成策略优化方向”的关键模块**,本质是一种“基于过往动作轨迹总结问题根源的模型”。
2025-11-06 11:33:34
715
原创 AVATAR中 MRR 的计算方法
核心定义对于每个检索查询,先找到“所有正确答案在模型返回结果列表中的排名”,取排名的“倒数”(即 reciprocal 排名);再对所有查询的 reciprocal 排名取平均值,得到 MRR。公式可简化为:(Q) 是查询总数;(\text{rank}_i) 是第 (i) 个查询中,第一个正确答案在结果列表中的排名(排名从 1 开始,而非 0);若某查询无正确答案返回,其 reciprocal 排名计为 0。得分范围与意义。
2025-11-06 11:17:02
655
原创 AVATAR提出的方法是微调吗?还是对框架进行了训练??
AvATAR 不是微调,而是提示工程 + 自动化指令生成。它通过迭代优化提示来提升代理在多步骤、工具增强任务中的表现。该方法强调泛化性和系统性错误修正,而不是通过训练数据来更新模型参数。如果你需要,我可以进一步解释它与微调方法的区别,或者举例说明它的优化过程。
2025-11-05 08:54:09
169
原创 Hit@k、Recall@k、pass@k
指标适用场景是否要求多个相关项?是否考虑排序位置?是否允许多次尝试?Hit@k问答、搜索、推荐❌(只需1个相关项)❌(只要在 top-k 内)❌(单次输出)Recall@k文档检索、多标签分类✅(需知道全部相关项)❌(只看数量,不看顺序)❌(单次输出)Pass@k代码生成、程序合成❌(只需1个正确)❌(不关心顺序)✅(生成多个候选)
2025-11-04 19:44:01
1239
原创 MAC-SQL:黄金标准错误
在这篇论文的5.5错误分析部分,“黄金标准错误”指的是。简单来说,“黄金标准”是一把“正确答案的标尺”,模型生成的SQL与这把标尺的偏离程度,就是“黄金标准错误”。
2025-11-04 18:03:11
380
原创 零样本提示 和少样本提示 有什么区别?
不提供任何示例,直接用自然语言描述任务。模型仅依靠预训练时学到的知识和对指令的理解来完成任务。优点:简单快捷,无需构造示例。缺点:对复杂任务可能效果不佳。特性零样本提示少样本提示是否提供示例❌ 不提供✅ 提供少量(1~5个)依赖模型能力强依赖模型的指令理解能力通过示例引导模型行为提示长度短较长适用场景简单、常见任务复杂、模糊或专业任务构造成本低中(需设计有效示例)效果稳定性可能不稳定通常更稳定可靠零样本提示是“直接下指令”,少样本提示。
2025-11-04 17:01:09
1042
原创 MAC-SQL:SQL-Llama 的具体训练流程
训练的核心是让SQL-Llama同时学习3类任务,论文采用多任务联合损失函数L−∑i13EQSiKYi∼DilogPYi∣QSiK;M符号含义:i=1,2,3:对应3类Agent任务;Q:用户自然语言问题;Sⁱ:任务i所需的数据库schema(如任务1的“完整schema”、任务2的“筛选后schema”);K。
2025-11-04 16:36:25
697
原创 MAC-SQL 算法一
输入自然语言问题、数据库和相关知识,输出能正确执行的SQL查询,解决大数据库和复杂问题下的Text-to-SQL生成难题。,更直观地呈现每个环节的逻辑和分工?要不要我帮你整理一份。
2025-11-03 18:11:54
381
原创 MAC-SQL 图1
一个看似简单的自然语言问题,背后可能对应着一个需要多步推理(先算平均值,再进行比较)和复杂SQL特性(子查询、表联结、计算列)的查询。这正是论文MAC-SQL框架想要解决的问题。论文认为,传统的、单一的LLM模型很难一步到位地生成这种复杂SQL。分解器会将“列出优秀率超过平均的学校”这样的复杂问题,分解成“首先,计算平均优秀率是多少?”和“然后,找出优秀率大于这个值的学校”这样的子问题。选择器可能会帮助从庞大的数据库模式中,精准定位到frpm和satscores这两个关键表。修正器。
2025-11-03 17:46:06
725
原创 MAC-SQL论文 总结
这篇论文核心是提出MAC-SQL多智能体协作框架及开源模型SQL-Llama,解决大数据库和复杂问题下Text-to-SQL任务的性能瓶颈,且与数据处理、数据管理均密切相关。
2025-11-03 16:40:18
396
原创 AVATAR 论文的实验都是在框架的部署阶段进行的是吗?还是说先用测试数据集上优化好了,在进入到部署阶段进行实验?
优化阶段:用训练数据的正/反例样本,通过Comparator生成指令,持续优化Actor的工具使用策略,是“训练过程”;部署阶段:用独立的测试数据评估优化后Actor的泛化能力,是“测试过程”;两者严格分离,既保证了优化的有效性,也确保了实验结果的客观性和可信度。
2025-11-02 21:21:27
375
jpg或eps的世界地图 如何转换成json格式
2023-05-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅