
计算机视觉
文章平均质量分 88
计算机视觉
却道天凉_好个秋
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度学习(十七):全批量梯度下降 (BGD)、随机梯度下降 (SGD) 和小批量梯度下降 (MBGD)
特性全批量梯度下降 (BGD)随机梯度下降 (SGD)小批量梯度下降 (MBGD)数据量/次更新整个数据集 N1 个样本B 个样本 (1<B<N)更新频率/Epoch1 次N 次N/B 次梯度方差/噪声最低(真实梯度)最高(随机噪声)中等收敛路径平稳,单调下降剧烈震荡,最终在最小值附近徘徊平稳且快速,有轻微震荡收敛速度 (迭代次数)慢(迭代次数少,但单次耗时长)快(更新频繁)最快(平衡了效率和更新频率)计算效率低(单次计算成本高)低(无法并行计算)高(可高度并行化)内存/显存高。原创 2025-10-06 22:00:08 · 573 阅读 · 0 评论 -
深度学习(十六):数据归一化处理
数据归一化是深度学习工作流中不可或缺的一环。其核心价值在于重塑特征空间,将不同尺度的特征投影到一个统一且有利于梯度下降优化的空间中。对于传统机器学习和浅层网络Min-Max 归一化和Z-Score 标准化是主要的预处理手段,其中 Z-Score 因其对异常值的鲁棒性更受青睐。对于深度神经网络批量归一化(BN)层归一化(LN)**等**内部归一化技术成为了标配,它们通过在网络内部实时调整数据分布,从根本上解决了内部协变量偏移问题,极大地提升了模型训练的效率、稳定性和最终性能。原创 2025-10-06 21:45:16 · 912 阅读 · 0 评论 -
深度学习(十五):Dropout
Dropout作为一种简单而强大的正则化技术,通过随机丢弃神经元有效降低了深度神经网络的过拟合风险,提高了模型的泛化能力。其原理基于随机失活和集成学习的结合,实现在深度学习框架中简单高效。尽管Dropout存在训练时间长、超参数敏感等局限性,但其变体和改进方法不断扩展了其适用范围。在实际应用中,Dropout已成为深度学习模型设计中的标准组件,广泛应用于视觉、语言等多个领域。原创 2025-10-06 21:31:13 · 843 阅读 · 0 评论 -
深度学习(十四):正则化与L2正则化
正则化是确保深度学习模型从“记住”训练数据到“理解”普遍规律的关键桥梁。L2正则化作为其中最基础和重要的方法之一,通过惩罚权重的大小,有效地降低了模型的复杂度,提高了模型的泛化能力。它通过在每次参数更新时引入权重衰减,促使模型选择更小的权重值,从而获得更平滑、更稳定的决策边界。在训练过程中随机地“关闭”一部分神经元,防止神经元之间的共适应。通过对训练数据进行随机变换(如旋转、裁剪、翻转),增加训练样本的多样性。经元,防止神经元之间的共适应。原创 2025-10-05 22:06:19 · 921 阅读 · 0 评论 -
深度学习(十三):向量化与矩阵化
向量化和矩阵化是深度学习的性能基石充分利用 CPU 的 SIMD 指令集和 GPU 的大规模并行计算能力,将计算速度提升数十倍、数百倍甚至数千倍,使大规模模型的训练成为可能。将复杂的数学公式直接转化为简洁的代码,提升了代码的可读性、可维护性和去 Bug 效率。它们是所有现代深度学习框架(如 PyTorch/TensorFlow)的核心设计思想。掌握它们是理解和高效使用这些框架,乃至进行**模型部署(Inference)**优化的前提。简而言之,在深度学习中,一切皆矩阵一切皆并行。原创 2025-09-28 22:24:39 · 1024 阅读 · 0 评论 -
深度学习(十二):多种激活函数
激活函数是深度学习网络的“非线性引擎”。从 Sigmoid 到 ReLU,再到 Swish 与 GELU,激活函数的演化体现了深度学习对梯度消失、收敛速度和表达能力的持续优化。当前主流模型多采用 ReLU 及其改进型,而在自然语言处理和计算机视觉的前沿任务中,Swish 与 GELU 已逐渐成为标配。原创 2025-09-25 22:03:38 · 1060 阅读 · 0 评论 -
深度学习(十一):深度神经网络和前向传播
前向传播是指:数据从输入层经过各层神经元的加权求和与激活函数运算,逐层传递,最终在输出层得到预测结果的过程。它可以看作是一种函数复合x 为输入,L为网络层数,f(l) 表示第 l 层的非线性变换。深度神经网络通过多层结构和非线性映射实现了对复杂问题的强大建模能力,而前向传播是其中最基本、最核心的计算过程。它不仅是模型训练的起点,也是模型推理的关键步骤。随着计算能力和数据规模的提升,前向传播在更深层次网络(如卷积神经网络CNN、循环神经网络RNN、Transformer等)中得到了更广泛的应用。原创 2025-09-22 22:53:53 · 695 阅读 · 0 评论 -
深度学习(十):逻辑回归的代价函数
逻辑回归(Logistic Regression)是机器学习中最基础也是最经典的分类算法之一,它在深度学习的早期发展中扮演了重要角色,并且至今仍然是许多神经网络模型(特别是二分类问题)最后一层的核心组成部分。如果模型对错误的类别给出了很高的预测概率,损失就会变得非常大,从而在梯度下降过程中产生巨大的梯度,促使模型快速修正其参数。然后,它将这个线性结果 z 映射到 0 到 1 之间的一个概率值,这通过一个特殊的非线性激活函数——其中,z 是一个线性分数,w 是权重,x 是输入特征,b 是偏置项。原创 2025-09-19 23:12:17 · 679 阅读 · 0 评论 -
深度学习(九):逻辑回归
逻辑回归(Logistic Regression)是机器学习与深度学习中最经典、最基础的模型之一。虽然名字里带有“回归”,但它实际上是一个用于的线性模型,通常用于二分类任务。原创 2025-09-14 20:52:59 · 1255 阅读 · 0 评论 -
深度学习(八):学习率
在梯度下降(Gradient Descent)或其变种优化器中,学习率控制模型参数 θ 的更新幅度:θ 为第 t 次迭代的参数;η 为学习率;∇θL(θt) 为损失函数关于参数的梯度。学习率越大:每次更新幅度大,训练快速但可能震荡或发散;学习率越小:每次更新幅度小,训练稳定但收敛慢。学习率是深度学习中最关键的超参数之一,决定训练速度和稳定性。常用策略:固定、衰减(阶梯、指数、余弦)、自适应、循环和预热。调节学习率需要结合优化器、数据集大小和模型复杂度。原创 2025-09-14 20:23:50 · 616 阅读 · 0 评论 -
深度学习(七):梯度下降
梯度下降作为深度学习的核心优化算法,以其简单性和高效性成为模型训练的基石。从批量梯度下降到 Adam 等自适应优化器,梯度下降的变体和优化策略不断演进,显著提高了收敛速度和稳定性。然而,面对日益复杂的模型和任务,梯度下降仍需应对梯度消失/爆炸、计算效率和泛化能力等挑战。原创 2025-09-14 16:24:10 · 1066 阅读 · 0 评论 -
深度学习(六):代价函数的意义
总而言之,代价函数是深度学习的灵魂之一。它不仅仅是一个简单的公式,更是连接模型、数据和优化算法的核心纽带。它清晰地定义了“好”与“坏”,并为模型提供了一个明确的优化目标。没有代价函数,模型的训练将失去方向,无法从数据中学习有效的模式。理解和选择正确的代价函数,是构建高效、稳健的深度学习模型的关键第一步。原创 2025-09-11 23:06:43 · 1206 阅读 · 0 评论 -
深度学习(五):过拟合、欠拟合与代价函数
过拟合是指模型在训练集上表现很好,但在验证集和测试集上性能明显下降。其本质是模型学习了训练数据中的噪声或偶然性规律,而非数据的本质特征。欠拟合是指模型在训练集和测试集上表现都不好,说明模型未能有效学习数据特征。代价函数用于衡量预测值与真实值之间的差异,是深度学习模型训练和优化的核心指标。优化目标就是最小化代价函数。原创 2025-09-09 23:16:02 · 672 阅读 · 0 评论 -
深度学习(四):数据集划分
数据集划分是深度学习建模中的关键环节。合理的划分能确保模型在训练中有效学习,并在实际应用中保持良好的泛化性能。三分法则:训练、验证、测试三部分不可混淆,比例需结合数据规模合理设定。分布一致性:各划分子集应保持整体数据分布的一致性,避免偏差。场景适配:针对不同任务(图像、文本、时间序列、医学影像)选择合适的划分方法。防止泄露:严格避免测试数据泄露,保持模型评估的公正性。原创 2025-09-09 22:55:30 · 704 阅读 · 0 评论 -
深度学习(三):监督学习与无监督学习
无监督学习不依赖人工标注数据,模型仅利用输入数据本身进行训练,旨在发现数据中的潜在结构、分布规律或隐藏特征。原创 2025-09-08 23:35:14 · 1006 阅读 · 0 评论 -
深度学习(二):神经元与神经网络
在人工智能的浪潮中,(Neural Networks)无疑是驱动核心技术的引擎,它赋予了计算机前所未有的学习和识别能力。而这一切的起点,是受到生物大脑中基本单元——(Neurons)的深刻启发。从一个微小的生物细胞到复杂的计算模型,神经元与神经网络共同构成了人工智能的强大基石。原创 2025-09-08 23:19:41 · 1295 阅读 · 0 评论 -
深度学习(一):人工智能、机器学习与深度学习
但在机器学习中,你向电脑提供大量的数据和对应的正确答案(例如,给它 1000 张猫的图片和 1000 张狗的图片,并标记好),然后让它自己去“学习”如何区分猫和狗。简单来说,AI 是一个宏伟的愿景,它涵盖了所有旨在让机器变得“智能”的方法和技术,无论这些方法是基于规则的,还是基于数据的。在传统的机器学习中,特征(比如,区分猫狗的毛色、眼睛形状)需要由人来手动提取。深度学习是机器学习的一部分,而机器学习又是人工智能的一部分。这种从低级到高级的特征学习过程,是深度学习成功的关键。是实现人工智能的一种主要方法。原创 2025-09-07 22:01:20 · 1201 阅读 · 0 评论 -
计算机视觉(十一):边缘检测Canny
为了实现这三个准则,Canny 算法分在进行任何边缘检测之前,首先要对图像进行平滑处理,以。Canny 算法使用来平滑图像。高斯滤波是一种加权平均,它使用一个高斯函数来定义权重,中心点的权重最大,离中心越远的像素权重越小。这一步的目的是确保后续的梯度计算不会被图像中的随机噪声所干扰。平滑后的图像会进行。梯度可以理解为像素值在水平和垂直方向上的变化率。梯度幅值表示该点像素变化的剧烈程度,即“边缘的强度”,而梯度方向则表示变化的方向。Canny 算法通常使用。原创 2025-09-07 18:19:01 · 1465 阅读 · 0 评论 -
计算机视觉(十):ROI
在计算机视觉中,**感兴趣区域(ROI)**指的是图像中包含我们想要分析、处理或识别的目标或特征的特定子集。就像我们在阅读一本书时会聚焦于某个重要的段落,计算机视觉系统在处理图像时,也会将注意力集中到图像中对任务最有价值的区域,而非整个图像。使用ROI的主要目的是。原创 2025-09-07 17:45:02 · 851 阅读 · 0 评论 -
计算机视觉(九):图像轮廓
在图像处理中,轮廓通常指图像中前景目标与背景之间的边界线。它是一个。原创 2025-09-06 15:02:29 · 1527 阅读 · 0 评论 -
计算机视觉(八):开运算和闭运算
先进行。原创 2025-09-06 14:47:34 · 900 阅读 · 0 评论 -
计算机视觉(七):膨胀操作
在计算机视觉中,是一种基本的形态学操作,主要用于处理和分析图像的形状。它通过“膨胀”或“放大”图像中的前景对象来增加其尺寸或连接断开的区域。膨胀操作的工作原理类似于卷积,但使用的是(structuring element),也称为核 (kernel)。结构元素是一个小的矩阵或模板,它定义了膨胀操作的邻域和形状。原创 2025-09-03 21:46:10 · 461 阅读 · 0 评论 -
计算机视觉(六):腐蚀操作
腐蚀(Erosion)是计算机视觉和图像处理中一种基础且至关重要的形态学操作。它与膨胀(Dilation)互为对偶,共同构成了形态学处理的基石。腐蚀操作主要用于缩小前景物体的面积,去除图像中的噪声,以及分离相互连接的物体。腐蚀操作的核心思想是收缩或瘦身。它通过一个被称为结构元素(Structuring Element)或核(Kernel)的小型模板,在图像上进行“卷积”或“滑动”操作。结构元素通常是一个预定义的小矩阵,比如3x3或5x5的正方形,也可以是圆形、十字形等其他形状,其中心点被称为锚点(Ancho原创 2025-09-03 21:33:13 · 1495 阅读 · 1 评论 -
计算机视觉(五):blur
计算机视觉中的图像模糊(blur)是一种常见的图像处理技术,其核心是减少图像中高频细节信息,使图像变得平滑。高频信息通常代表图像中的边缘、纹理和噪声,而低频信息则代表图像的平滑区域。通过模糊处理,我们可以有效地降低这些高频信息的强度,从而达到各种目的。原创 2025-09-01 23:24:29 · 625 阅读 · 0 评论 -
计算机视觉(四):二值化
二值化,就是将图像从彩色或灰度模式转换为只有两种颜色(通常是黑色和白色)的模式。这个过程的本质是设定一个,将图像中所有像素的灰度值与这个阈值进行比较。经过上述处理后,图像中的所有像素都只剩下两种可能的值:0 和 255,从而得到了一个黑白分明的二值化图像。二值化是许多图像处理和计算机视觉任务中的一个重要预处理步骤。选择阈值是二值化的核心挑战。错误的阈值会导致信息丢失或引入噪声。原创 2025-08-31 23:02:35 · 1335 阅读 · 0 评论 -
计算机视觉(三):opencv环境搭建和图片显示
pip 安装带扩展模块版本conda 安装检查是否安装成功报错:ImportError: libGL.so.1: cannot open shared object file: No such file or directory。原创 2025-08-27 23:27:46 · 350 阅读 · 0 评论 -
计算机视觉(二):视觉的处理流程
计算机视觉的处理流程是一个从数据到知识的转化过程,它经历了从数据采集、预处理,到特征提取、模型构建,最终到评估优化的完整闭环。得益于深度学习的飞速发展,CV技术在效率、精度和自动化方面展现出巨大优势。然而,我们也必须清醒地认识到其在数据依赖、鲁棒性、可解释性和伦理隐私等方面的挑战。未来的计算机视觉将更加注重数据高效学习模型可解释性和鲁棒性的提升,同时,如何在技术发展与社会责任之间找到平衡,将是该领域持续健康发展的关键。原创 2025-08-20 21:18:43 · 835 阅读 · 0 评论 -
计算机视觉(一):nvidia与cuda介绍
CUDA 架构是 NVIDIA GPU 的底层硬件设计,核心目标是支持大规模并行计算。原创 2025-08-17 22:40:20 · 1230 阅读 · 0 评论