自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(165)
  • 收藏
  • 关注

原创 一文读懂大模型底层到 Agent 的完整技术栈:从 LM 到 Agent Skill 全解析

大语言模型技术解析:从底层架构到应用实践 本文系统梳理了大语言模型的核心技术要素及其应用发展。Transformer架构作为底层引擎,通过自注意力机制解决了传统模型的并行计算和长距离依赖问题。关键组件包括:Token(文本处理单元)、Context(记忆系统)和Prompt(交互指令)。技术发展经历了从GPT-3.5的实用化突破到多模型竞争的演进过程。当前技术前沿聚焦于工具调用标准化(MCP协议)、自主Agent系统开发,以及通过RAG技术突破上下文限制。文章特别指出,Prompt工程的重要性正在降低,而A

2026-04-29 16:09:22 350

原创 科研小白必看:读论文的「三步走」高效法

第一句:这篇论文解决了什么问题?第二句:用了什么方法解决?第三句:实验结果证明了什么?先速读,筛出高价值论文;再精读,啃懂方法、实验的逻辑;最后拆解,把论文转化为自己的知识储备。按照这个流程,哪怕是陌生领域的论文,也能从「看不懂」变成「用得上」~

2026-01-12 15:39:03 559

原创 从 “笨办法” 到 “巧思路”:Mamba(SSM)凭啥挑战 SwinTransformer?

Transformer 家族的 “视觉优等生”,通用、稳定、适配性强,是中短序列视觉任务的 “标准答案”;Mamba(SSM):序列建模的 “新解题思路”,长序列效率拉满,是超长序列、生成类任务的 “潜力股”。做常规视觉任务(分类、检测、分割):优先用 Swin,省心又出活;做超长序列任务(长视频、长文本、语音):试试 Mamba,算力和速度优势明显;做科研创新:可以试试把两者结合(比如 Swin 的分层结构 + Mamba 的 SSM 机制),说不定能出惊喜。

2025-12-04 21:15:30 754

原创 【大白话讲解力扣热题100】11.盛最多水的容器

想象有一排高低不同的柱子(数组height里的每个数字就是柱子高度),选两根柱子当容器的左右壁,容器的 “容量”= 矮柱子的高度 × 两根柱子的距离(因为水不能超过矮柱子,否则会溢出来)。我们要找能装最多水的选法。比如,最优是选第 2 根(高度 8)和第 9 根(高度 7),容量 = 7×(8-1)=49(数组索引从 0 开始)。先拿最两边的柱子(距离最大),算一次容量,记为当前最大值。移动较矮的那根柱子,找更高的柱子,打破 “矮瓶颈”。每次移动后,重新算容量,更新最大值。

2025-11-08 16:17:49 439

原创 【大白话讲解力扣热题100】283.移动零

这段代码的逻辑其实特别简单:「让 right 当探路的,把所有非零数一个个 “捡” 到 left 所在的位置,left 负责 “接” 并往前挪,等所有非零数都挪到前面,剩下的位置自然都是零」。全程只遍历一次数组,不额外占空间,是这道题的 “最优解”,而且代码特别短,记起来也容易~

2025-11-07 22:18:25 1096

原创 【大白话讲力扣热题100】128.最长连续序列

longest_streak = 4 → 正确!这段代码的逻辑其实特别简单:「先把数字去重存进集合,然后遍历每个数 —— 如果是序列起点,就往后数连续的数,记录长度;最后取最长的长度」。核心就是「找起点 + 集合快速查数」,既避免了排序(保持 O (n) 效率),又避免了重复遍历,是这道题的最优解~

2025-11-07 21:57:28 1148

原创 【大白话讲力扣hot100】49.字母异位词分组

这段代码的逻辑其实特别简单:「给每个字符串按字母排序做个 “身份证”,然后把身份证相同的人拉进同一个群,最后把所有群打包返回」。没有复杂的逻辑,全靠 “排序生成统一标签” 这个巧思,既简洁又高效~2.计数方法时间复杂度 O (nk),比上一个排序解法更快),核心思路是「用 “字母计数” 当统一标签,给异位词分组」—— 本质和上一个排序解法一样,只是换了种更高效的 “贴标签” 方式。我用大白话拆透,新手也能秒懂~list (mp.values ()) → 结果还是,和排序解法一样,但速度更快~

2025-11-07 21:44:17 915

原创 【大白话讲力扣hot100】1.两数之和

核心思路是「用哈希表记已经看过的数字,避免重复遍历」。

2025-11-07 21:29:17 1151

原创 可变形注意力机制(Deformable Attention)、普通注意力机制对比

普通注意力是 “地毯式搜索”,适合捕捉均匀分布的全局依赖;而可变形注意力是 “精准打击”,通过动态调整焦点区域,在视觉任务和长序列处理中表现更优。二者并非替代关系,而是互补 —— 例如,Transformer 的编码器常用普通注意力(文本处理),而解码器可引入可变形注意力(生成任务)。理解这些差异有助于在实际应用中选择更合适的模型架构。

2025-07-09 23:27:57 1106

原创 可变形注意力机制

可变性注意力机制,通常指可变形注意力(Deformable Attention),是一种用于神经网络中的注意力机制,能动态调整注意力模型的形状和大小,以更好地适应不同任务和输入数据的特点1。

2025-07-09 23:25:22 710

原创 注意力机制

Query(Q):当前需要关注的对象(如翻译时的 “目标词”)。Key(K):与 Query 对比的候选对象(如 “源语言句子中的每个词”)。Value(V):Key 对应的具体信息(需被加权聚合的内容)。三者通常由输入数据通过线性变换生成: \(Q = X \cdot W_Q, \quad K = X \cdot W_K, \quad V = X \cdot W_V\) 其中,X 是输入序列,\(W_Q, W_K, W_V\) 是可学习的参数矩阵。

2025-07-09 23:23:11 1104

原创 Transformer详解

并行计算:相比 RNN 的串行处理,Transformer 可同时处理序列中的所有 token,大幅提升训练效率。全局依赖:通过自注意力机制,每个 token 能直接关注到序列中的所有其他 token,解决了 RNN 难以捕捉长距离依赖的问题。多头注意力:多个注意力头并行学习不同的依赖模式,增强了模型的表达能力。位置编码:通过正弦 / 余弦函数注入位置信息,确保模型能理解序列的顺序。

2025-07-09 23:20:14 720

原创 软件测试作业大全

通过上述测试用例,可验证系统对邮件地址的校验逻辑是否完整,例如是否拒绝无 @符号、非法字符或域名不完整的输入,同时接受符合规范的邮件地址。该方法参考了课本中关于等价类划分的基本原理,通过覆盖不同维度的无效情况,确保测试的全面性(对应课本第 3 章 “3.2.1 等价类划分法” 相关内容,P39-41)。1. 单元测试一般由开发人员完成,并采用动态测试技术,这样会获得更高的测试效率和更彻底的测试,谈谈其中的道理。为什么要采取特定的测试策略?1. 谈谈关于软件测试的正反两方面观点所带来的利弊。

2025-06-08 10:40:48 1061

原创 机器学习经典算法原理深度解析:线性回归、逻辑回归、K-Means、决策树、随机森林

线性回归假设输入特征 \(X = [x_1, x_2, \dots, x_n]\) 与输出 y 之间存在线性关系,通过学习参数 \(\theta = [\theta_0, \theta_1, \dots, \theta_n]\) 构建线性方程:\(\hat{y} = \theta_0 + \theta_1x_1 + \theta_2x_2 + \dots + \theta_nx_n = \theta^TX\)理解这些底层逻辑,是选择与优化算法的核心基础。

2025-06-04 13:44:23 1342

原创 DeepSORT 算法详解:多目标跟踪的经典框架

DeepSORT 通过 “运动预测 + 外观特征 + 分层匹配” 的设计,在多目标跟踪中实现了鲁棒性与效率的平衡,其核心思想(如级联匹配、特征融合)为后续算法(如 StrongSORT、ByteTrack)奠定了基础。在实际应用中,理解其各模块的作用机制,可帮助开发者根据场景特性(如目标速度、遮挡频率、摄像头视角)调整参数或进行针对性优化,从而提升 MOTA 等关键指标。

2025-05-25 22:13:37 4373

原创 MOTA 评价指标详解:多目标跟踪算法的核心评估标准

MOTA(Multiple Object Tracking Accuracy,多目标跟踪准确率)是多目标跟踪(MOT)任务中最常用的综合性评价指标,用于衡量算法在目标检测、定位及轨迹关联上的整体表现。其核心公式为:关键参数解释GTt​:第t帧中真实目标的数量。FNPt​:第t帧中的假正例(False Positive,误将背景或其他目标检测为目标)。FNNt​:第t帧中的假负例(False Negative,漏检真实目标)。IDSWt​:第t帧中的ID 切换次数。

2025-05-25 22:00:17 1860 1

原创 数据增强方法详解:Mosaic 增强、随机缩放与 HSV 调整

Mosaic 增强、随机缩放和 HSV 调整的核心价值在于:通过人为扩充训练数据的分布,迫使模型学习更通用的特征表示。在实际应用中,需根据任务特性(如检测、分类)和数据特点(如目标尺度、色彩分布)调整参数,避免增强过度导致模型学习 “增强噪声” 而非真实特征。Mosaic 增强由 YOLOv4 首次提出,通过将四张图像随机缩放、裁剪、排布后拼接成一张新图像,大幅增加数据多样性。随机缩放是指在训练时将图像按随机比例缩放至不同尺寸,迫使模型学习目标在不同尺度下的特征。

2025-05-25 20:56:21 1814

原创 生成对抗网络(GAN):原理、架构与应用全景解析

生成对抗网络(Generative Adversarial Networks,GAN)由 Ian Goodfellow 于 2014 年提出,其灵感源于博弈论中的 “零和博弈”。核心思想是通过和的对抗训练,使生成器学习到真实数据的分布,从而生成以假乱真的样本。

2025-05-23 21:58:02 1242

原创 自注意力机制(Self-Attention)详解:从原理到核心价值

自注意力的核心突破在于打破了链式结构的约束,让模型能以 “全局视角” 直接建模序列中的依赖关系。其本质是一种关联建模工具:通过 QKV 的矩阵运算,将 “语义相关性” 转化为可计算的权重,从而让模型自主选择关键信息。尽管存在长序列计算的挑战,但其并行性和长距离依赖能力仍是 Transformer 等现代架构的基石,推动了 NLP、CV 等领域的跨越式发展。

2025-05-23 20:00:29 1816

原创 【软件测试方法和技术】基于逻辑覆盖的方法

覆盖标准关注点测试用例数量示例未覆盖问题语句覆盖每条语句至少执行一次1判定条件错误、分支逻辑错误判定覆盖每个判定的真假分支各执行一次2条件内部错误、条件组合错误条件覆盖每个条件的真假值各出现一次2判定整体逻辑错误、未覆盖所有分支判定 - 条件覆盖判定和条件均满足覆盖要求2条件组合错误条件组合覆盖所有条件组合至少出现一次4控制流之外的计算逻辑错误。

2025-05-15 21:48:52 1147

原创 transformer原理图讲解+面试问题(看懂原理就够了!)

Transformer架构包含编码器与解码器。编码器将输入经嵌入和位置编码后,通过多层的多头注意力机制捕捉语义关联,经前馈网络非线性变换,辅以残差连接和层归一化稳定训练;解码器对右移后的输出进行类似处理,其中掩码多头注意力防止信息泄露,还通过多头注意力与编码器交互获取上下文,最后经线性层和Softmax输出预测概率,实现对序列的有效处理与预测。

2025-05-13 14:31:43 1264

原创 前馈神经网络:深度学习的入门基石

在深度学习的世界里,前馈神经网络(Feedforward Neural Network,FFNN)是最基础且经典的架构之一,它为后续复杂的神经网络模型奠定了基础,广泛应用于图像识别、语音处理、自然语言处理等多个领域。下面,就让我们深入了解前馈神经网络的方方面面。

2025-05-12 21:01:41 1057

原创 图像重缩放:从原理到实践的全面解析

在计算机视觉与图像处理领域,图像重缩放是一项基础且关键的技术。无论是调整图片尺寸以适配不同设备屏幕,还是为深度学习模型准备标准化输入,图像重缩放都发挥着重要作用。接下来,我们将深入探讨其原理、方法、应用场景,并附上面试常见问题与答案。

2025-05-12 20:59:37 1119

原创 深入理解词嵌入:自然语言处理的基石

在自然语言处理(NLP)的广阔领域中,词嵌入(Word Embedding)技术宛如一颗璀璨的明星,为计算机理解人类语言搭建了一座重要的桥梁。今天,就让我们一同深入探寻词嵌入的奥秘。

2025-05-12 20:56:08 1331

原创 ALBERT(A Lite BERT)

ALBERT(A Lite BERT)是谷歌于 2019 年提出的轻量级预训练语言模型,旨在解决 BERT 存在的训练速度慢、模型参数大等问题。它通过对网络结构的优化,在保持模型性能的同时减少了参数数量,提升了训练效率。

2025-05-10 14:20:16 913

原创 RepVGG:重新思考 VGG 式网络架构的设计

RepVGG 是 2021 年由清华大学提出的一种高效卷积神经网络架构,其核心思想是通过 ** 结构重参数化(Structural Re-parameterization)** 技术,将训练时的多分支结构转换为推理时的单路结构,在保持 VGG 式简单架构优势的同时,实现接近 ResNet 的性能。该架构在 ImageNet 上达到了 84.1% 的 Top-1 准确率,同时具有极低的推理延迟,特别适合硬件部署。

2025-05-10 13:48:35 952

原创 分层注意力(Hierarchical Attention)详解

分层注意力是一种强大的机制,能够有效捕捉数据的多层次结构信息,在文本、视频、图像等领域都有广泛应用。其核心优势在于同时关注局部细节和全局上下文,提高模型对复杂数据的理解能力。在实际应用中,需要根据数据特性合理设计层级结构,并注意控制计算复杂度。分层注意力不仅能提升模型性能,还能通过注意力权重可视化增强模型的可解释性。

2025-05-10 13:47:43 3088

原创 梅尔频谱(Mel-Spectrum)详解

梅尔频谱是一种声音的频谱表示方式,它结合了声学特性和人类听觉感知。与普通的频谱图(如傅里叶变换得到的频谱)不同,梅尔频谱在频率轴上采用了梅尔刻度(Mel Scale),这种刻度更接近人耳对不同频率声音的感知特性。核心特点对数频率压缩:在低频区域分辨率高,高频区域分辨率低,与人耳感知一致保留声音的时频特征:同时表示声音的时间和频率信息广泛应用于语音和音频处理:如语音识别、情感分析、音乐信息检索等梅尔频谱是音频处理领域的核心特征表示方法,它通过模拟人耳感知特性,在语音识别、情感分析等任务中表现出色。

2025-05-10 13:45:19 3302

原创 通道剪枝技术(Channel Pruning)

通道剪枝是模型压缩领域的一种核心技术,主要用于减少卷积神经网络(CNN)的参数量和计算量,同时尽可能保留模型的原始性能。与权重剪枝(细粒度剪枝)不同,通道剪枝属于结构化剪枝,它直接移除整个卷积核通道,因此对计算加速和内存优化更为有效,特别适合硬件部署。通道剪枝是一种高效的模型压缩技术,特别适合需要平衡精度和计算效率的场景。通过合理评估和移除不重要的通道,可以显著减少模型参数量和计算量,同时保持较高的精度。随着硬件部署需求的增长,通道剪枝技术将在边缘计算、自动驾驶等领域发挥越来越重要的作用。

2025-05-09 21:03:37 1686

原创 PAN(Path Aggregation Network)

PAN 由中国科学院深圳先进技术研究院等机构于 2018 年提出。它主要针对 FPN 在特征融合时存在的一些局限性进行了优化,进一步提高了目标检测的精度,尤其是在小目标检测方面有更出色的表现。

2025-05-09 20:55:05 647

原创 FPN(Feature Pyramid Network)

FPN(Feature Pyramid Network)是 2017 年由 Facebook AI Research(FAIR)提出的一种用于目标检测的多尺度特征融合架构。传统的目标检测方法通常只使用顶层特征(语义信息强,但空间分辨率低,不利于小目标检测)或低层特征(空间分辨率高,但语义信息弱),而 FPN 通过构建金字塔结构,将不同层级的特征进行融合,同时兼顾了高分辨率和强语义信息,显著提升了多尺度目标(尤其是小目标)的检测性能。

2025-05-09 20:49:55 1651

原创 csp-Cross Stage Partial Network

CSP 是 Cross Stage Partial Network 的缩写,它是一种在计算机视觉领域中用于目标检测和图像识别的神经网络架构设计理念,具有代表性的网络有 CSPNet。

2025-05-09 20:46:27 692

原创 R-CNN、Fast R-CNN、Faster R-CNN、SSD 和 YOLOv7 对比分析

算法精度速度模型复杂度适用场景R-CNN低极慢高研究原型Fast中较慢中学术研究Faster高中高高精度需求SSD中快低边缘设备实时检测YOLOv7极高极快中工业级实时检测与嵌入式系统发展趋势单阶段算法逐渐占据主流,尤其在实时场景中。精度与速度的平衡不断优化(如 YOLOv7 同时提升精度和速度)。轻量级架构(如 MobileNet、ShuffleNet)与量化技术推动边缘部署。

2025-05-09 19:52:39 1629

原创 SSD(Single Shot MultiBox Detector)

SSD 是 2016 年由 Wei Liu 等人提出的一种单阶段(One-stage)目标检测算法,它在保持较高检测精度的同时,实现了比 Faster R-CNN 更快的检测速度,能够满足实时应用的需求。与两阶段算法(如 Faster R-CNN)不同,SSD 直接在特征图上预测目标的类别和位置,省略了候选区域生成和特征重提取的过程,从而显著提高了检测效率。SSD 是目标检测领域的重要算法,它通过单阶段设计和多尺度特征图,在保持较高检测精度的同时实现了实时检测。

2025-05-09 19:51:58 1019

原创 Faster R-CNN

Faster R-CNN 是 2015 年由 Shaoqing Ren、Kaiming He 等人提出的一种两阶段目标检测算法,它是 Fast R-CNN 的进一步发展,通过引入区域提议网络(Region Proposal Network, RPN)解决了传统目标检测算法中候选区域生成效率低的问题,实现了真正意义上的端到端目标检测。Faster R-CNN 在保持高精度的同时,大幅提高了检测速度,成为了目标检测领域的里程碑式算法。

2025-05-09 19:51:26 1150

原创 Fast R-CNN

Fast R-CNN 是 2015 年由 Ross Girshick 提出的一种目标检测算法,它是 R-CNN 的改进版本,旨在解决 R-CNN 计算效率低、训练流程繁琐等问题。Fast R-CNN 通过引入感兴趣区域池化(RoI Pooling)层和多任务损失函数,实现了更高效的特征共享和端到端的训练,显著提升了目标检测的速度和精度。Fast R-CNN 是目标检测领域的重要进展,它通过 RoI 池化和多任务损失函数解决了 R-CNN 的效率问题,实现了更高效的特征共享和端到端训练。

2025-05-09 19:50:48 814

原创 R-CNN(Regions with Convolutional Neural Networks)

R-CNN 是 2014 年由 Ross Girshick 等人提出的一种基于深度学习的目标检测算法,它开创了将卷积神经网络应用于目标检测的先河,显著提升了目标检测的性能。在此之前,目标检测主要依赖手工特征(如 HOG)和传统机器学习方法(如 SVM),而 R-CNN 首次将 CNN 强大的特征提取能力引入到目标检测领域。R-CNN 是目标检测领域的里程碑式工作,它将深度学习引入到目标检测中,为后续算法的发展奠定了基础。

2025-05-09 19:50:07 631

原创 MobileNet、EfficientNet

MobileNet 是谷歌团队开发的一系列轻量级卷积神经网络,专为移动和嵌入式设备设计。在资源受限的设备上,传统的大型卷积神经网络(如 VGG、ResNet)运行效率低,计算资源和内存消耗大。而 MobileNet 通过提出深度可分离卷积(Depthwise Separable Convolution)这一创新结构,在大幅减少模型参数和计算量的同时,仍能保持较高的分类精度。EfficientNet 是谷歌在 2019 年提出的一种高效的卷积神经网络架构。

2025-05-08 22:09:28 1136

原创 深入了解 PERCLOS:疲劳驾驶检测的关键指标

PERCLOS 表示在一段时间内,驾驶员眼睛的眼睑闭合覆盖瞳孔的时间占总观察时间的百分比。它通过对驾驶员眼部状态的持续监测,量化了眼睛闭合的程度和时间,以此来反映驾驶员的疲劳程度。一般来说,当驾驶员处于清醒状态时,眼睛会保持相对稳定的睁开状态,而随着疲劳的积累,眼睛会不自觉地闭合,PERCLOS 的值也会相应增加。PERCLOS 作为疲劳驾驶检测的重要指标,在交通安全领域具有重要的意义。虽然它存在一些局限性,但通过与其他技术结合和算法优化,能够在实际应用中发挥更大的作用。

2025-05-08 22:08:42 2480

原创 Adaboost 算法:原理、应用与面试要点解析

Adaboost 作为一种经典的集成学习算法,以其独特的自适应机制和强大的分类能力,在多个领域都有着广泛的应用。尽管它存在对噪声敏感和计算复杂度较高等局限性,但在合适的场景下,仍然能够发挥出出色的性能。理解 Adaboost 的原理、优势、应用场景以及与其他算法的区别,对于深入学习机器学习知识和解决实际问题都具有重要意义,也是在机器学习相关面试中需要重点掌握的内容。

2025-05-08 22:07:51 784

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除