- 博客(1448)
- 收藏
- 关注
原创 大模型面试题41:RoPE改进的核心目标与常见方法
RoPE改进的核心 =扩展上下文窗口 + 提升长距离区分度,以上三种方法是实现这两个目标的“入门级工具”。从“一刀切”到“精细化”:针对不同维度、不同任务设计专属的RoPE策略;从“静态”到“动态”:RoPE参数随输入特性自适应调整,提升模型通用性;从“文本”到“多模态”:RoPE成为跨领域的位置编码标准,推动多模态模型发展。
2026-01-04 23:42:04
470
原创 大模型面试题40:结合RoPE位置编码、优秀位置编码的核心特性
优秀的位置编码 =让模型懂顺序 + 能处理无限长句子 + 计算快,RoPE就是同时满足这三点的“优等生”。特性定义RoPE的表现顺序感知能让模型理解文字的顺序和结构✅ 旋转角度直接体现位置顺序相对位置敏感模型关注字与字之间的相对位置,而非绝对位置✅ 旋转角度的差值只与相对位置有关无限长度支持能处理任意长度的句子,无需重新训练✅ 旋转角度动态计算,支持无限长度线性计算复杂度处理长句时速度快,内存占用低✅ O(n)复杂度,适合超长文本无额外参数不增加模型的大小和训练难度✅ 无额外参数,轻量化。
2026-01-04 23:24:19
398
原创 大模型面试题39:KV Cache 完全指南
KV Cache = 大模型的“历史信息缓存池”,核心作用是复用已计算结果,降低推理阶段的计算成本,提升生成速度。对用户:生成速度更快,对话更流畅(不用等半天);对开发者:降低推理成本(减少GPU计算时间),提升部署效率;对大模型:是自回归模型实现“实时交互”的关键技术(没有KV Cache,大模型无法快速响应)。
2026-01-04 23:20:45
678
原创 大模型面试题37:Scaling Law完全指南
从“规模至上”到“效率优先”:Densing Law、ParScale等新定律将主导未来1-2年的AI发展从“三维扩展”到“多维协同”:上下文、模态、推理等新维度加入,形成更复杂的缩放网络从“经验规律”到“理论科学”:Scaling Law将与信息论、神经科学深度融合,建立坚实理论基础从“单一模型”到“系统工程”:Scaling Law将扩展到模型训练的全流程,包括数据治理、硬件优化、分布式系统设计“Scaling Law并未消亡,只是正在演变”。
2026-01-04 23:17:28
395
原创 大模型面试题36:Transformer中的残差连接处理方式与作用
残差连接就是给模型加了一条“信息捷径”,把原始输入直接加到输出上,既防止深层训练崩溃,又不让模型丢了基础信息。残差连接通过yxFxyxFx的逐元素加和,让梯度能直接反向传播(避免梯度消失),同时让模型学习特征增量,是Transformer实现深层堆叠的核心技术。
2026-01-03 10:53:28
531
原创 大模型面试题35:Pre-LayerNorm vs Post-LayerNorm对深层Transformer训练稳定性
Pre-LN是“先调味再炒菜”,提前稳住食材状态,深层堆叠也不容易翻车;Post-LN是“先炒菜再调味”,浅层还行,深层就容易炒糊——实验的核心就是看谁在“炒很多遍”后还能保持好味道。通过控制变量法,对比不同层数下Pre/Post-LN的损失曲线、梯度范数和模型效果,可验证Pre-LN通过提前标准化特征分布,显著提升深层Transformer的训练稳定性,而Post-LN在深层时易出现梯度发散问题。
2026-01-03 10:51:22
796
原创 大模型面试题34:Transformer的Encoder和Decoder区别与协作
Encoder:双向自注意力,专注理解输入,输出语义特征;Decoder:掩码自注意力+编码器-解码器注意力,专注生成输出,实现语义对齐。
2026-01-03 10:38:12
599
原创 大模型面试题33:Transformer为什么用LayerNorm,而非BatchNorm?
BatchNorm是“全班一起标准化”,依赖别人;LayerNorm是“自己跟自己比”,独立自主。Transformer处理的句子长短不一,用LayerNorm更灵活、更稳定!LayerNorm在单个样本的特征维度做归一化,不依赖批次统计量,完美适配Transformer的变长序列、padding和小batch训练场景,同时保留token的个性化特征,更利于自注意力机制学习。
2026-01-03 10:35:15
826
原创 大模型面试题32:为什么不单一注意力机制,而是采用多头注意力?MHA机制带来哪些优势?
多头注意力是**“分角度看问题,再汇总”**,比“用一个大角度硬看”看得更准、学得更轻松!多头注意力通过**“维度拆分→并行学习→结果融合”**的策略,在不增加计算复杂度的前提下,让模型能捕捉多类型的依赖关系,同时缓解维度灾难,提升训练稳定性和效果。
2026-01-03 10:25:45
745
原创 小白秒懂QKV:用“查字典”讲明白
Q是“提问的人”→ 我要找什么关联?K是“回答的人”→ 我能提供什么关联?V是“给的答案”→ 我关联的具体内容是什么?三个角色分工合作,让每个词都能精准找到和其他词的联系,这就是自注意力的核心!
2026-01-03 10:08:46
281
原创 大模型面试题31:自注意力机制的公式,为什么要除以sqrt(d_k)
除以dk\sqrt{d_k}dk是为了防止点积分数太大,避免 softmax 输出极端值导致梯度消失,让模型能正常训练。自注意力中Q⋅KTQ⋅KT的方差与dkd_kdk成正比,除以dk\sqrt{d_k}dk可将方差归一化到 1,保证 softmax 输出的权重分布合理且梯度稳定。
2026-01-03 09:58:01
474
原创 大模型面试题30:Padding 的 mask 操作
Padding mask 就是给模型一个“忽略清单”,告诉它哪些位置是补齐的无效内容,计算时不要理它们!Padding mask 是一个 0/1 矩阵,0 表示 Padding 位置,在注意力计算时会被设为 -∞,从而被 softmax 置零,实现忽略效果。
2026-01-03 09:52:32
268
原创 大模型面试题29:稀疏注意力是什么?
稀疏注意力就是让模型“选择性地关注重要信息”,而不是“和所有人都打交道”,从而让模型在处理长文本时更快、更省内存。稀疏注意力通过限制注意力计算的范围(局部窗口、全局Token、哈希分组等),将复杂度从 O(L²) 降至 O(L × w),是处理超长序列的关键技术。
2026-01-03 09:47:50
929
原创 大模型面试题27:Muon优化器小白版速懂
Muon是“高效探索”优化器,MuonClip是K2的“稳定版”K2用它实现了超大模型的高效、稳定训练,支持长上下文和复杂推理如果你想微调K2,官方推荐继续用Muon/MuonClip,能获得最佳效果。
2026-01-02 19:42:22
377
原创 大模型面试题26:Adam优化器小白版速懂
Adam 是深度学习里超常用的,它会自动给每个参数定制合适的学习率,比固定学习率训练更快、更稳,结合了(动量)和(自适应学习率)的优点。
2026-01-02 19:38:02
836
原创 大模型面试题25:Softmax函数把“得分”变成“概率”的归一化工具
对输入向量(纯文本写法):Softmaxziezi∑j1nezji12nSoftmaxzi∑j1nezjezii12n纯文本兼容版:分子:对单个得分做指数运算(保证非负)分母:所有得分指数的总和(做归一化,让结果之和=1)
2026-01-02 19:35:20
1256
原创 大模型面试题24:小白版InfoNCE原理
Softmax 函数(也叫归一化指数函数)是深度学习里核心的归一化函数,专门用于把一组任意实数(常称 “logits / 对数几率 / 得分”)映射成0 到 1 之间、总和为 1 的概率分布,常作为分类模型的输出层激活函数。里常用的损失函数(全称:Information Noise Contrastive Estimation),核心是让模型学会区分“对的配对”和“错的干扰项”,从而学到有用的特征,不用依赖人工标注。
2026-01-02 19:20:36
148
原创 大模型面试题23:对比学习原理-从通俗理解到核心逻辑(通用AI视角)
核心思想:无需标签,通过“相似样本靠近、不相似样本远离”让模型自动学习特征;关键要素:锚点样本(基准)、正样本(相似,靠数据增强生成)、负样本(不相似,需足够多样);损失函数:InfoNCE是核心,通过温度参数控制对比强度,目标是让模型精准识别正样本;适用场景:无监督/半监督学习、特征提取、CV/NLP的检索/分类任务(需大量数据但标签稀缺);关键技巧:高质量的数据增强(正样本)、足够多的负样本(决定特征区分度)。
2025-12-30 18:44:15
927
原创 大模型面试题22:从通俗理解交叉熵公式到通用工程实现
核心作用:量化“预测概率”与“真实标签”的差距,是分类任务的首选损失函数;公式关键:多分类场景可简化为CE−logycorrectCE−logycorrect,仅关注正确类别的预测概率;核心优势:收敛快、惩罚力度合理,适配所有分类任务(二分类/多分类、图像/文本等);代码技巧:PyTorch的直接接收logits,内置Softmax,无需手动转概率。无论是什么分类任务,交叉熵的原理和实现逻辑完全一致,掌握上述内容即可直接应用到任何场景中。
2025-12-30 17:08:00
767
原创 大模型面试题21:大白话讲懂BN和LN为啥一个管图像,一个管文字
技术通俗理解适用场景核心优势全年级按科目算标准分计算机视觉(图像、视频)大批次下统计准,加速训练效果好个人按所有科目算标准分自然语言处理(文字、序列)不用凑班,适配变长序列,小批次训练稳定图像任务:优先用,通道独立归一化,速度快、稳定。文本任务:优先用LayerNorm,适配变长序列,小批次稳定。小批次或动态序列:用LayerNorm或GroupNorm替代BatchNorm。
2025-12-29 23:49:16
690
原创 大模型面试题20:BatchNorm从背景到参数,小白也能秒会
作用:给数据“校准规格”,解决“数据调皮”导致的训练慢、训练崩问题;核心逻辑:先把每批数据调成“标准分”,再用γ(缩放)和β(偏移)微调;可训练参数:只有γ和β,每个通道各1个,总数=2×通道数(c);关键规律:参数数量只和通道数(c)有关,和批次大小(b)、图片长宽(h,w)没关系。就像给每个颜色通道配了一个“调音师”,每个调音师只有两个旋钮(缩放+偏移),不管你给多少张图片、图片多大,调音师的数量(通道数)不变,旋钮总数就不变~
2025-12-29 20:00:00
1259
原创 大模型面试题19:梯度消失&梯度爆炸 公式版
梯度消失和梯度爆炸是反向传播链式法则的必然产物,只出现在深层网络,浅层网络无需考虑。二者的本质是梯度幅值的极端缩放,梯度消失是「缩放至0」,梯度爆炸是「缩放至无穷大」。解决思路的优先级:更换激活函数 + 权重初始化(基础) →归一化(核心) →梯度裁剪(爆炸专属)/残差连接(消失专属)(深层必备) → 其他辅助手段。ReLU/GELU + He初始化 + BN/LN + 残差连接 + 梯度裁剪,能解决所有梯度相关问题,是所有深层模型的标配。
2025-12-26 14:39:57
455
原创 大模型面试题19:梯度消失&梯度爆炸 纯白话文版
梯度消失 = 学习指令越传越弱,前层学不到东西;梯度爆炸 = 学习指令越传越强,模型学崩了。深网络+指令层层相乘,数值被极端缩放,消失是乘了太多小数,爆炸是乘了太多大数。ReLU激活函数 + He初始化 + 归一化 + 残差连接→ 解决所有梯度消失;再加梯度裁剪→ 解决所有梯度爆炸。
2025-12-26 14:39:12
787
原创 cv::contourArea &&鞋带公式
核心要求:顶点顺时针/逆时针连贯排列、闭合轮廓、点集数量≥3、无自相交;底层依赖鞋带公式,顺序错误会导致正负项抵消,面积为0或异常;常见坑:自相交、点集未闭合、浮点精度丢失,可通过凸包排序、数量检查等方式修正;实用技巧:计算面积后做阈值判断,对矩形可按角度自动排序顶点,确保计算有效。
2025-12-23 14:09:14
547
原创 技术演进脉络:各模型在LLM发展历程中的承上启下作用
技术演进的核心驱动力问题导向式创新长序列依赖问题:从RNN的无力到LSTM/GRU的缓解,最终由Transformer的自注意力机制基本解决计算效率问题:从串行计算到并行计算,Transformer实现了质的飞跃泛化能力问题:从特定任务模型到大规模预训练模型,BERT/GPT实现了跨任务迁移。
2025-12-21 15:13:18
657
原创 Seq2Seq:Encoder-Decoder架构详解
实现逻辑编码器处理整篇文章,提取核心语义解码器生成简洁摘要,长度远小于原文优势:能自动提取文章关键信息,适用于新闻、学术论文等长文本处理核心贡献首次实现端到端序列转换,为NLP多项任务提供通用框架通过Encoder-Decoder架构解决了"输入输出长度不一致"的难题奠定了后续Transformer等高级架构的基础关键局限信息瓶颈:固定向量无法完美表示序列全部信息长距离依赖处理能力弱,尤其在无注意力机制时解码效率低,生成质量不稳定发展脉络。
2025-12-21 15:09:18
591
原创 Word2Vec 核心知识点速记版
分布假设:词的含义看“邻居”,解决 One-Hot 两缺陷(维度爆炸+无语义)CBOW 与 Skip-gram:上下预测中心快,中心预测上下准静态词向量:一词一向量,多义难区分;迁移下游好,语义推理强超参数:窗口大小要适中,太大引噪小漏义核心应用:预训练词嵌入,提升下游 NLP 任务效果。
2025-12-20 15:07:33
645
原创 Word2Vec:核心思想
苹果”“香蕉”“鱼干”的上下文都有“爱吃”,所以它们的词向量会比较接近;而“苹果”和“手机”的上下文完全不同(比如“苹果手机”的上下文是“买”“用”),词向量就会相差很远。,向量的维度可以自己设定。向量之间的距离(比如余弦相似度)就代表了词的语义相似度——这是它最核心的价值。——在 Word2Vec 出现前,NLP 里词的表示是。(即每个词的上下文是左右各 2 个词,边界不足则补全)。(词的含义,由它周围的词决定)Word2Vec 做的事,就是。要理解这个假设,得先搞懂它。,两种范式的区别,就是。
2025-12-20 15:05:55
568
原创 LLM(Large Language Model)系统学习路线清单
3.1.1 Prompt Engineering 定义:通过精准设计输入指令,引导LLM输出预期结果的技术方法论3.1.2 Prompt Engineering 核心价值:零微调提升模型性能、降低LLM应用门槛、适配多样化下游任务3.1.3 Prompt Engineering 适用场景:文本生成、知识问答、逻辑推理、代码生成、多轮对话等3.1.4 模型与Prompt的适配性:模型规模对Prompt效果的影响、不同LLM架构的Prompt设计差异。
2025-12-20 14:42:35
500
原创 嵌入式场景算法轻量化部署checklist
本清单聚焦的资源约束(算力有限、内存小、功耗敏感),覆盖全流程,可直接对照落地,适配 YOLO 目标检测、手部姿态估计等 CV/AI 算法。
2025-12-20 14:01:56
828
原创 机器学习核心概念与主流算法(通俗详细版)
机器学习本质上就是。比如让计算机看1000张猫和狗的照片,它总结出“猫有尖耳朵、狗有大尾巴”的规律后,就能分辨新的照片是猫还是狗。下面用,把核心概念、模型评价、主流算法讲透,保证全面又好懂。
2025-12-20 10:19:10
938
原创 RTMPose_JSON相关解读
output_xoutput_y热图的高度对应关键点数量,宽度对应坐标轴的分辨率;后处理的本质是“从热图找峰值 → 缩放映射回原始图像坐标”;配置中所有维度(133/384/512/192/256)必须与模型训练、图像预处理的参数严格一致,否则会导致坐标检测错误。核心实现「RTMPose 热图输出→关键点像素坐标」的转换逻辑from scipy.ndimage import zoom # 用于热图放大(enlarge_ratio)"""
2025-12-19 10:24:38
859
原创 白话一刻:聊聊激光雷达和毫米波雷达的本质与配合
激光雷达是在问:“物体的表面在哪里?”(测绘几何形状)毫米波雷达是在问:“哪里有一个能强烈反射我信号的亮点?”(探测“高光”目标)所以,毫米波雷达的“视力”天生就是模糊的、不完整的,它擅长告诉你“前面有东西,速度很快”,但不擅长告诉你“那东西长得具体是什么样”。这就是它在做精细3D感知(比如识别行人手势、判断障碍物精确形状)时的核心难点。现在再来看看为什么分辨率低我们用“手电筒”这个比喻继续深挖,把“分辨率低”这件事彻底讲透。“分辨率低”,说白了就是“看得不够清楚、分得不够细”。
2025-12-14 15:13:40
534
原创 大模型面试题18:t-SNE算法详解及入门实操
t-SNE是高维数据可视化的“神器”,尤其适合看聚类结构,但它慢、不能预测新数据、全局结构失真;如果需要更快的速度和全局结构,可优先选UMAP;如果必须用t-SNE,就用Barnes-Hut版本提速。作为新手,咱们可以从核心定位、原理逻辑、实际效果如果你想压缩数据、给模型减负,优先选PCA;如果你想画高维数据的聚类图、直观分析类别分布,优先选t-SNE(或更快的UMAP);PCA是“为模型服务的降维工具”,t-SNE是“为人类理解服务的可视化工具”。
2025-12-09 09:59:08
1118
原创 大模型面试题17:PCA算法详解及入门实操
PCA就是个“高维数据的瘦身专家”,适合处理有线性关联的普通数据,但遇到非线性、有异常值的复杂数据就需要“升级版”算法来兜底!
2025-12-09 09:54:02
628
原创 大模型面试题16:SVM 算法详解及实践
根据不同的应用场景,可按以下原则选择DBSCAN及其改进算法:若需快速落地、无需手动调参:优先选择HDBSCAN,其层次化结构可适配密度不均数据,且自动输出最优聚类数;若需处理大数据集、要求实时性:选择KDTree-DBSCAN(索引优化)或GPU-Parallel DBSCAN(并行计算),平衡效率与效果;若需处理高维数据(多特征融合):选择Kernel-DBSCAN(核映射)或PCA+DBSCAN(降维+聚类),解决维数灾难问题;
2025-12-09 09:44:34
857
1
原创 大模型面试题15:DBSCAN聚类算法:步骤、缺陷及改进方向
根据不同的应用场景,可按以下原则选择DBSCAN及其改进算法:若需快速落地、无需手动调参:优先选择HDBSCAN,其层次化结构可适配密度不均数据,且自动输出最优聚类数;若需处理大数据集、要求实时性:选择KDTree-DBSCAN(索引优化)或GPU-Parallel DBSCAN(并行计算),平衡效率与效果;若需处理高维数据(多特征融合):选择Kernel-DBSCAN(核映射)或PCA+DBSCAN(降维+聚类),解决维数灾难问题;
2025-12-08 21:13:33
638
原创 大模型面试题14:K-means聚类算法全解析(通用场景+深度拓展)
K-means的核心优势是简单、高效、易工程实现,这使其成为无监督学习中最基础、最常用的算法;但其固有缺陷(K值依赖、对初始值和噪声敏感、簇形状限制等)也决定了它无法直接适用于所有场景。在实际应用中,需根据数据特点和业务需求选择合适的改进算法:含噪声数据选K-medoids,大数据实时场景选Mini-batch K-means,非球形簇选Kernel K-means,模糊归属场景选FCM,K值未知选自适应K-means。
2025-12-08 21:09:06
756
A TC Architecture of Embedded System Based on Improved TPM
2023-08-20
Technical Background of the Android Suspend Blockers Controversy
2023-02-22
DEN0021D-Trusted-Base-System-Architecture-Client
2023-01-02
DEN0056E-System-Control-and-Management-Interface-v3.2-BETA
2023-01-02
DEN0022E-Power-State-Coordination-Interface-BETA
2023-01-02
TRACE32工具的SiFive RISC-V调试和跟踪方案
2024-03-11
ChatGPT芯片算力:研究框架
2024-03-11
on-chip networks:片上网络(On-chip Networks)
2024-03-11
TEE and its Key Management:
2024-03-11
A new IoT Security certification scheme with trust signals
2023-09-02
Scalable Private Membership Test Using Trusted Hardware
2023-08-20
TCG Guidance for Secure of Software and Firmware on Embedded Sys
2023-08-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅