- 博客(1504)
- 收藏
- 关注
原创 《AI Flow: Perspectives, Scenarios, and Approaches》论文解读
家族模型:一组“尺寸不同但隐藏特征对齐”的模型,共享中间计算结果(无需额外中间件转换),可灵活切换以适配端、边、云硬件。关键优势:灵活伸缩:参数规模可从数百万(端侧)到数十亿(云端)调整;高效协作:小模型的中间特征可直接被大模型复用,减少重复计算与数据传输。AI Flow的核心创新在于打破AI与通信的技术壁垒,通过“硬件分层协同+模型家族适配+智能交互涌现”的三位一体设计,解决了大模型落地的“资源-通信”双重瓶颈。技术层面:首次提出标准化的AI-CT融合框架,为泛在智能提供可落地的技术路径;
2026-01-24 09:22:53
552
原创 高增长科技股投资法 核心内容深度拆解
最近读了《高增长科技股投资法》,我发现这个很不错,也很符合这次周期的内容。于是用AI生成了一个概要记录,给朋友们分享一下做个参考。有时间推荐去读一下原书,内容很有意思,可惜的就是很多时候晚上太困了,看的时候脑袋瓜不甚清晰。没有链接很多其它的内容。
2026-01-23 15:10:14
655
原创 大模型面试题91:合并访存是什么?原理是什么?
合并访存的核心:让同一个线程束的32个线程访问连续、对齐的全局内存地址,将32次分散请求合并成1~2次批量请求;底层原理:匹配GPU内存控制器的“批量处理规则”,充分利用内存带宽,减少访存请求次数;优化要点:线程索引和内存地址一一对应(步长=数据类型大小),保证起始地址对齐,避免跨步访问。对小白来说,合并访存是GPU编程中“投入最少、收益最大”的优化手段——只需调整线程访问地址的方式,就能让全局内存访存效率提升10倍以上,是写CUDA代码必须掌握的核心知识点。
2026-01-21 15:35:58
503
原创 大模型面试题90:half2,float4这种优化 与 pack优化的底层原理是什么?
核心原理:打包多个基础数据成一个单元,利用GPU的SIMD向量指令一次处理多个数据,同时减少内存访问次数,充分利用硬件宽度;收益来源:一是减少运算指令数(提升运算速度),二是减少内存访问次数(提升带宽利用率);使用原则:优先用half2/float4(简单高效),常规浮点场景足够用;只有定制化场景(如int8量化)才需要通用pack优化。
2026-01-21 15:35:17
481
原创 大模型面试题89:GPU的内存结构是什么样的?
GPU内存的核心逻辑:速度和容量成反比,越靠近计算核心越快、越小,编程时要尽量让数据停在高层级(寄存器/共享内存);程序员可控的内存:寄存器(少用临时变量避免溢出)、共享内存(优化访问避免Bank Conflict),这是GPU优化的重点;性能瓶颈点:全局内存访问速度慢,优化重点是“合并访问+减少访问次数”,多用共享内存缓存数据。对小白来说,不用一开始就掌握所有细节,先记住“金字塔模型”和“数据尽量待在快内存里”这两个核心,后续写CUDA代码时,就能针对性优化了。
2026-01-21 15:29:28
390
原创 大模型面试题88:cuda core的数量 与 开发算子中实际使用的线程 关系是什么?过量线程会发生什么情况?
核心关系:CUDA Core是硬件运算单元,线程是软件任务,线程数需适配SM资源(让占用率接近100%),而非和Core数相等;过量线程的后果:先导致资源不足、占用率下降(性能降),再增加调度开销(性能更差),极端情况程序崩溃;新手原则:线程块大小选32的倍数,总线程数设为SM最大线程数的总和,逐步测试找到最优值。对新手来说,不用追求“线程数越多越好”,先保证“线程数能让SM占满”,再微调优化,就能避开90%的线程相关问题。
2026-01-21 15:28:37
803
原创 大模型面试题87:CUDA出现bank conflict,应该怎么解决?
要理解bank conflict,先搞懂CUDA里的共享内存(Shared Memory)——这是GPU线程块(block)内所有线程共享的高速内存,速度比全局内存快几十倍,是CUDA优化的核心,但它的“存储结构”是导致冲突的关键。Bank Conflict本质:多个线程同时访问共享内存的同一个Bank,导致并行访问变成串行。核心解决思路:让线程访问的地址分散到不同Bank,优先用「调整访问模式」和「Padding」(最简单有效)。验证方法:用Nsight Compute查看冲突率,降到0%即解决。
2026-01-21 15:27:45
825
原创 大模型面试题86:在Qwen2.5-VL中,一张560*560 pixel的图片,应该换算成多少个token?
这个数字不是凭空来的,我们用“切蛋糕”的思路一步步拆解,保证零基础也能看懂。
2026-01-21 11:49:10
438
原创 大模型面试题85:Qwen2.5-VL的预训练流程。
婴儿期(视觉预训练):学“看”东西,认识世界。儿童期(多模态预训练):学“说”和“想”,能看图说话、答题。少年期(长上下文预训练):学“读长篇”,理解复杂内容。成年期(后训练优化):学“讲人话”,按人类指令做事,符合人类偏好。经过这四个阶段,Qwen2.5-VL从一个“睁眼瞎”变成了“能看懂、会说话、懂思考”的多模态AI助手,能处理图像描述、视觉问答、文档解析、视频理解等多种任务。
2026-01-21 11:48:33
665
原创 大模型面试题84:是否了解 OpenAI 提出的Clip,它和SigLip有什么区别?为什么SigLip效果更好?
模型训练逻辑核心优势适合场景CLIP全局排名赛:在所有样本中找最佳匹配零样本能力强,开创性强资源充足(超大算力+大显存),追求开创性研究SigLip成对判断题:只看这对图文是否匹配效率高、批量灵活、效果好实际应用(产品落地)、资源有限、大规模训练简单说:CLIP是“开创者”,SigLip是“优化者”——站在CLIP的肩膀上,用更聪明的训练方式,让多模态模型更高效、更稳定、更易落地。
2026-01-21 11:46:32
946
原创 大模型面试题83:ViT一般怎么进行预训练?
把图片切成小方块,加位置信息,让模型在海量数据上要么“按标签分类”,要么“猜被挡住的方块”,学完通用视觉特征后,再微调做具体任务。
2026-01-21 11:44:15
851
原创 大模型应用的三大核心方向及进化
能感知环境、自己思考、主动干活的AI助手,相当于一个“不用发工资的虚拟员工”。规划步骤(先查行业数据→找竞品动态→分析趋势→整理报告);调用工具(联网搜数据、用Excel算图表、用PPT生成文档);调整优化(如果数据不全,再补充检索;如果格式不对,重新排版)。从“能说话”(ChatGPT)→“会查资料”(RAG)→“能干活”(Agent)→“能协作”(多Agent+MCP),本质是大模型从“信息生成工具”变成“自主决策的生产力工具”。
2026-01-20 15:59:18
732
原创 大模型面试题82:你有什么办法避免LLM输出时的幻觉问题?
不让瞎猜:限定知识范围,调低温度,告诉AI“不知道就说不知道”;让它查资料:用RAG给AI配“随身小抄”,先检索再回答;说完再核对:让AI标来源,用工具或人工校验。这一套组合拳下来,LLM的幻觉问题就能减少90%以上。
2026-01-20 08:36:43
720
原创 大模型面试题81:是否使用过OpenAI Plugin、LangChain Agents相关的框架?
OpenAI Plugin = ChatGPT 的“官方外挂商店”,简单好用但局限多。LangChain Agents = 大模型的“万能工具箱”,灵活强大但要稍微折腾。MCP = 让所有 AI 和工具“说同一种话”的规则,适合大规模协作。对比维度MCP(模型上下文协议)OpenAI Plugin(ChatGPT插件)LangChain Agents(大模型工具框架)核心定位一套通用技术协议(像“普通话”),规范大模型和外部工具的沟通方式OpenAI 官方的插件生态。
2026-01-20 08:33:45
855
原创 大模型面试题80:MCP有哪些缺点?
MCP是个好东西,能让AI帮我们干很多事,但它不是“万能神器”——就像手机能打电话、上网,但没电了就是块砖头。这些缺点不是MCP本身的问题,而是“AI联动外部工具”这个事儿,目前就存在这些技术门槛。
2026-01-20 08:30:56
570
原创 大模型面试题79:举例一个你用到过的MCP的场景
这个爬山规划场景里,MCP就像一个**“全能行程管家”**,它不自己干活,而是帮你协调天气、交通、门票等所有“小帮手”,还帮你把控安全权限,最后给你一个省心的结果。
2026-01-20 08:29:52
1573
原创 大模型面试题78:是否了解MCP,简单讲一下MCP的工作流程
用户提需求 → Host接收 → Client+LLM规划工具调用方案 → 用户授权 → Server执行工具 → 结果返回并整理成自然语言 → 呈现给用户,同时记录上下文。现在你已经完全理解MCP了!它就像给AI装上了“手脚”和“安全意识”,让AI能真正融入我们的工作和生活,帮我们解决各种实际问题。
2026-01-20 08:28:53
576
原创 大模型面试题77:你在训练GRPO和DPO的时候使用了什么强化学习框架?
小白入门首选:TRL(Hugging Face),内置DPO直接用,GRPO基于PPO改核心逻辑即可,适配LLM生态,上手最快;学习原理选:先TRL跑通效果,再用CleanRL手写核心逻辑,或用SB3理解通用RL框架;核心原则:不用追求“多框架精通”,先把一个框架用熟,再拓展,重点是先跑通GRPO/DPO的训练流程,再理解底层逻辑。
2026-01-15 08:59:19
869
原创 大模型面试题76:强化学习中on-policy和off-policy的区别是什么?
强化学习里的策略,就是智能体(比如机器人、LLM)的“行动指南”——在什么状态下,该做什么动作。游戏AI:血量低于30%(状态)→ 立刻加血(动作);前备箱防夹算法:检测到障碍物(状态)→ 停止关闭并反向(动作);LLM的GRPO训练:收到数学题(状态)→ 生成解题步骤(动作)。策略的本质,就是一个“状态→动作”的映射函数,咱们后面说的“学”和“用”,都是围绕这个函数展开的。on-policy是“自己动手,边做边改”,off-policy是“借鉴经验,择优升级。
2026-01-15 08:57:52
938
原创 大模型面试题75:讲解一下GRPO的数据回放
建缓冲区:训练每轮后,筛选优势值>0的样本存起来,设容量上限;抽样本:每轮新训练前,随机抽30%的回放样本;混合练:新数据:回放数据=7:3,一起喂给模型训练。
2026-01-15 08:57:01
794
原创 大模型面试题74:在使用GRPO训练LLM时,训练数据有什么要求?
选对数据集:优先用公开的高质量数据集(比如数学用GSM8K、代码用HumanEval),不用自己从零造数据;格式化清洗:转成JSON格式,包含“问题+参考答案+候选答案”,删除脏数据;梯度划分:按难度分成“简单→中等→复杂”三组,按顺序训练。
2026-01-15 08:56:22
609
原创 大模型面试题73:简单介绍下GRPO的训练流程。
GRPO训练就是“给模型出一题→让它多写几个答案→挑出比平均分好的→让模型记住好思路→不跑偏地反复练”,全程围绕“对比选优”,把复杂的推理训练变得简单高效。
2026-01-15 08:55:29
516
原创 大模型面试题72:DPO如果在训练中不稳定应该怎么处理?
咱们不用纠结复杂原理,按的顺序排查解决——先从不用改代码的「数据检查」开始,再调简单的「超参数」,最后用进阶的「训练策略」兜底,小白也能一步步搞定。
2026-01-14 09:43:36
627
原创 大模型面试题71: DPO有什么缺点?后续对DPO算法有哪些改进?
DPO的缺点,本质是「为了简单,牺牲了灵活性」;而后续改进,就是在不丢掉「简单稳定」的前提下,把灵活性补回来。从「必须手动标成对数据」到「自动生成样本」,从「只懂二元对比」到「懂多元排序」,从「只看相对好坏」到「兼顾绝对质量」——DPO的改进,就是一步步让它从「专用工具」变成「通用工具」。
2026-01-14 09:42:29
605
原创 大模型面试题70:在训练DPO时遇到了什么问题?是如何解决的?
训练 DPO 的核心逻辑就是「数据优先,参数微调,早停防过拟合」数据是根基:宁可少样本,也要高质量的「明显好坏对」;超参数别瞎调:学习率往小了设,batch size 往大了设;训练别贪多:早停是神器,混合数据防遗忘。
2026-01-14 09:40:39
794
原创 大模型面试题69:为什么DPO在训练LLM时,绕开了reward model?
RLHF 的思路是「先打分,再奖励」,但多了 RM 这个中间环节,就多了很多麻烦;DPO 的思路是「不打分,直接比」,跳过 RM,直接让模型学会「选好的、弃差的」。RLHF 做饭:先做一个「评分工具」,再用工具判断菜好不好吃,最后调整菜谱;DPO 做饭:直接尝两口,觉得 A 比 B 好吃,就直接调整菜谱,不用做评分工具。
2026-01-14 09:39:16
653
原创 大模型面试题67:PPO中奖励稀疏的解决办法
奖励稀疏,就是“模型只有完成最终任务才能拿到一次奖励,中间所有步骤都没任何反馈”。学徒做菜场景:学做餐厅招牌番茄炒蛋,只有把菜端给食客吃完(最终步骤),食客才给一次打分(比如85分);中间的切番茄、调蛋液、控火候、翻炒这些关键步骤,没人说“切得好”或“火太大了”。LLM训练场景:模型生成一篇300字的回答,只有全部写完(最终token生成完),奖励模型(RM)才给一次总分;中间生成的“缓解头痛”“多休息”“遵医嘱”这些关键内容,都没任何即时反馈。解决PPO奖励稀疏的核心,就是。
2026-01-13 15:18:17
820
原创 大模型面试题66:PPO中的广义优势函数
广义优势函数,就是把“单步的好坏”扩展到“整个做事流程的好坏”,同时兼顾“当下的奖励”和“未来的潜在收益”,最终算出一个更全面的优势评估值。举个做菜的例子:学徒做番茄炒蛋的流程是“切番茄 → 打蛋 → 热油 → 翻炒 → 装盘”,这是一个5步的序列。普通优势值:只看“装盘后食客打分(R)”和“装盘步骤的平均基准分(V)”,忽略了前面切番茄、打蛋的影响;广义优势函数:把每一步的即时反馈和后续步骤的潜在价值都算进去,最终评估“整个做菜流程到底比平均水平好多少”。
2026-01-13 15:14:11
416
原创 大模型面试题65:LLM的PPO训练中 Critic Model和Reward Model的区别
管“这个回答人类喜不喜欢”,是模型优化的“指南针”;管“这个回答比平时好多少”,是模型优化的“刻度尺”。两者缺一不可——没有指南针,模型不知道往哪走;没有刻度尺,模型不知道自己进步了多少。LLM的PPO训练:RM、CM、策略网络 协作流程图(小白版)我们用「文字流程图+学徒做菜比喻」结合的方式,直观展示三者的互动逻辑,全程无复杂术语,每个步骤都对应实际训练动作。策略网络是“执行者”,负责生成回答;RM是“方向标”,给人类偏好的绝对分数;CM。
2026-01-13 15:11:36
627
原创 大模型面试题64:介绍下PPO的训练流程
PPO 就是**“小步快跑”的优化算法** —— 不像有些强化学习算法“大刀阔斧”地改,容易把模型改废;而是“一点点调,边调边看”,既安全又高效,这也是它能成为 RLHF 首选算法的原因。想简单、稳定、通用→ 选 PPO(尤其是做RLHF)玩游戏AI、简单离散任务→ 选 DQN追求训练速度、有并行算力→ 选 A2C要极致稳定、不怕麻烦→ 选 TRPO。
2026-01-13 15:08:45
756
原创 大模型面试题63:介绍一下RLHF
基础大模型→ [监督微调 SFT] →会模仿的模型→ [训练奖励模型 RM] →有打分标准的模型→ [强化学习微调 RL] →贴合人类偏好的最终模型RLHF 就是通过“人类教→人类评→模型自己改”的三步法,让 AI 从“只会背书”变成“会按人类喜好做事”的训练套路。
2026-01-13 15:04:58
406
原创 大模型面试题62:PD分离
PD分离把位置编码和解码器的词嵌入解耦不再把位置编码和词嵌入相加后输入解码器;位置信息只在Attention计算阶段引入,而不是在解码器的输入层引入。传统做法:给每个快递盒(词嵌入)贴一个“地址标签”(位置编码),然后把盒子和标签绑在一起送仓库(解码器);PD分离做法:快递盒(词嵌入)直接进仓库,只有在分拣时(Attention计算),才查这个盒子的地址标签(位置编码)。小白级认知:PD分离=位置编码不和词嵌入绑定,只在Attention计算时加位置信息,解决传统位置编码的固定长度痛点;
2026-01-12 10:07:25
1043
原创 大模型面试题61:Flash Attention中online softmax(在线softmax)的实现方式
online softmax的核心:把K/V分块,边算边更新全局max和sum_exp,不存储完整的L×L score矩阵,显存占用从O(L²)降到O(L);实现的核心逻辑:双Pass策略(先算全局max/sum_exp,再算output)+ 数值稳定性缩放(适配更新后的max);核心难点:数值稳定性(防止exp溢出/下溢)、GPU内存层级优化(共享内存利用)、反向传播的online计算、分块边界的硬件适配。
2026-01-12 10:04:51
1167
原创 大模型面试题60:vLLM中PageAttention的实现原理
小白核心:PageAttention是把KV Cache切成固定大小的Block(像分页内存),解决传统KV Cache的碎片化和浪费问题;每个Block存固定数量token的K/V。进阶核心:PageAttention通过“虚拟-物理Block映射”管理内存,计算时只加载有效Block/有效Slot,用CUDA核函数加速;Block不仅存K/V,还包含状态、引用计数等管理信息。关键优化:Block池复用、稀疏计算、前缀缓存是PageAttention高效的核心,也是vLLM比传统推理框架快的关键原因。
2026-01-12 10:01:56
1034
原创 RNN(循环神经网络)
RNN 的价值:首次实现序列数据的时序依赖建模,解决了 Word2Vec 忽略语序的问题;RNN 的关键:隐藏层的循环连接 + 权重共享,让模型能“记住”前面的时序信息;RNN 的致命缺陷:梯度消失/爆炸 → 无法处理长序列,这也直接催生了后续的 LSTM/GRU(用门控机制解决该问题)。
2026-01-10 11:22:28
959
原创 大模型面试题59:vLLM使用TP时MHA head数非GPU整数倍的解决方案?
核心矛盾:TP对MHA最优拆分是按head均分,非整数倍会导致负载不均;小白省心方案:直接启动TP,vLLM自动兼容,只是性能略有损失;进阶优化方案:优先调整TP的GPU数量,让其成为head数的约数,性能直接拉满;专家方案:修改模型head数或手动指定TP拆分方式。
2026-01-10 11:05:08
440
原创 大模型面试题58:vLLM的Swap和Recompute?
Swap 直译是“交换”,在 vLLM 里特指——把暂时用不上的 KV Cache 数据,从 GPU 显存“挪”到 CPU 内存,甚至硬盘里;等需要的时候,再“搬”回 GPU 显存继续用。Recompute 直译是“重计算”,在 vLLM 里特指Transformer 层重计算——推理时,不存储 Transformer 注意力层的中间计算结果;等后续需要这些结果时,再重新跑一遍注意力计算,生成需要的数据。Swap 和 Recompute 都是显存优化工具,目的是让小显存也能跑大模型/长序列;
2026-01-10 11:03:09
909
原创 大模型面试题57:是否了解LLM的分词器,LLM中的词表文件是如何生成的?
分词器是LLM的“翻译官”:核心作用是把自然语言拆成子词(Token),转换成数字ID,词表文件是它的“字典”;词表不是人工编的:主流用BPE算法,从海量语料中迭代合并高频子词生成,平衡“词汇覆盖”和“Token数量”;生成流程有标准步骤:语料准备→预处理→选算法训练→加特殊Token→验证保存,小白可用tokenizers库快速上手。
2026-01-10 10:59:49
481
原创 大模型面试题56:如何在vllm推理时,保证大模型输出的确定性,有在vllm中哪些参数与之相关?
阶段参数名作用小白推荐值入门控制随机性核心0(必设)入门确定性生成(质量更高)可选开启入门束搜索候选数2(平衡质量和速度)进阶--seed固定随机种子12345(任意固定整数)进阶量化开关追求确定则不设高阶禁止CUDA异步执行1(环境变量)高阶开启PyTorch确定性算子True(代码设置)
2026-01-10 10:59:03
494
A TC Architecture of Embedded System Based on Improved TPM
2023-08-20
Technical Background of the Android Suspend Blockers Controversy
2023-02-22
DEN0021D-Trusted-Base-System-Architecture-Client
2023-01-02
DEN0056E-System-Control-and-Management-Interface-v3.2-BETA
2023-01-02
DEN0022E-Power-State-Coordination-Interface-BETA
2023-01-02
TRACE32工具的SiFive RISC-V调试和跟踪方案
2024-03-11
ChatGPT芯片算力:研究框架
2024-03-11
on-chip networks:片上网络(On-chip Networks)
2024-03-11
TEE and its Key Management:
2024-03-11
A new IoT Security certification scheme with trust signals
2023-09-02
Scalable Private Membership Test Using Trusted Hardware
2023-08-20
TCG Guidance for Secure of Software and Firmware on Embedded Sys
2023-08-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅