- 博客(340)
- 收藏
- 关注
原创 感受野:两个3x3等于一个5x5
摘要: 感受野指输出特征图上单个元素对应输入图像的空间区域,是神经网络理解视觉信息的关键指标。通过两层3×3卷积(RF=5×5)与单层5×5卷积的对比,前者可减少28%参数、增强非线性表达能力。VGG、ResNet等网络通过小核堆叠、瓶颈结构等设计优化感受野与计算效率。实际应用中需匹配任务需求(如目标检测需大感受野),并注意stride、空洞卷积等操作对感受野的影响。Transformer中类似的注意力窗口概念延续了感受野的核心思想。
2026-01-29 10:10:21
551
1
原创 K-Means 聚类的目标函数:簇内误差平方和
K-Means 是一种无监督迭代式的聚类算法:给定数据集与预设簇数K,算法把样本划分为K个不相交的簇,使得同一簇内样本尽可能相似,不同簇间样本尽可能远离。核心思想:> “让簇内‘抱团’,让簇间‘疏远’。
2026-01-29 10:10:16
909
原创 DreamDPO:通过直接偏好优化,实现文本到3D的偏好对齐
DreamDPO:基于偏好优化的文本到3D生成方法 本文提出DreamDPO框架,通过直接偏好优化解决现有文本到3D生成方法与人类偏好对齐不足的问题。该方法通过三步流程实现优化:(1)动态构建成对样本,(2)利用奖励模型或大型多模态模型进行偏好比较,(3)基于分段损失函数优化3D表示。实验表明,DreamDPO在GPTEval3D基准测试中各项指标均优于现有方法,特别是在文本-几何对齐(提升25.8%)和纹理细节(提升48.4%)方面表现突出。该方法通过成对比较机制降低了对精确评分的依赖,同时支持使用多模态
2026-01-28 12:25:16
6513
1
原创 似然函数&对数似然函数&负对数似然函数
本文介绍了似然函数、对数似然函数和负对数似然函数的定义及其在统计推断和机器学习中的应用。似然函数衡量参数下观测数据的概率,对数似然函数通过取对数简化计算,负对数似然函数将最大化问题转化为最小化问题便于优化。以逻辑回归为例,详细推导了负对数似然函数及其梯度,展示了如何通过梯度下降优化模型参数。这些概念构成了概率模型参数估计的理论基础。
2026-01-28 12:25:12
2312
原创 岭回归(Ridge Regression)辨析
摘要: 岭回归通过L2正则化解决最小二乘法的病态矩阵问题,在目标函数中加入λ‖β‖²惩罚项,获得闭式解(𝑿ᵀ𝑿+λ𝑰)⁻¹𝑿ᵀ𝒚。该方法通过特征值修正保证数值稳定性,实现偏差-方差权衡:λ增大降低方差但增加偏差,最优值需交叉验证选择。贝叶斯视角下对应高斯先验的MAP估计。相比L1正则化,岭回归保持参数连续性但不产生稀疏解。作为兼具统计可解释性与计算效率的凸优化方法,特别适用于高维共线性数据。
2026-01-27 11:05:00
5530
原创 深度残差网络ResNet结构
从图中可以直观感受到ResNet的特点:ResNet直接使用stride=2的卷积做下采样,并且用average pool层替换了全连接层。ResNet在网络中引入了残差模块,输入和输出进行跳跃连接,综合形成残差单元。同时,当feature map大小降低一半时,feature map的数量增加一倍,图中虚线就表示feature map数量发生了改变,ResNet通过这种变化保持网络层的复杂度。
2026-01-27 11:04:54
2293
1
原创 简明 | Yolo-v3结构理解摘要
本文介绍了YOLO-v3目标检测网络的核心结构。网络采用Darknet-53作为主干,结合特征金字塔(FPN)进行特征融合。主要组件包括DBL(卷积+BN+LeakyReLU)、残差模块(Res-n含多个Res-unit)以及拼接层(concat)和上采样层。其中残差结构借鉴ResNet使网络更深,concat层实现特征图维度的扩展,上采样通过插值或转置卷积提高分辨率。这些组件共同构成了YOLO-v3的特征提取和预测系统。
2026-01-26 14:05:16
1729
1
原创 TensorFlow Playground 交互式神经网络可视化工具
TensorFlow Playground 是 Google 推出的浏览器端交互式神经网络可视化工具。该工具无需安装,支持通过拖拽实时观察隐藏层、神经元数量对决策边界的影响,以及学习率、激活函数等参数的变化效果。界面分为五大功能区:数据区提供内置数据集,特征区控制输入维度,网络区调整拓扑结构,训练区设置超参数,可视化区展示实时训练曲线和决策边界。此外,用户可自定义数据生成、特征工程和网络结构,并通过URL分享配置。该工具直观展示了神经网络训练过程,适合初学者理解深度学习原理。
2026-01-26 14:05:09
2108
1
原创 简明 | ResNet特点、残差模块、残差映射理解摘要
ResNet通过残差结构解决深度网络退化问题,包含实线和虚线两种残差模块。实线模块用于浅层网络(如ResNet34),虚线模块用于深层网络(如ResNet101),通过1×1卷积降维减少参数。核心是恒等映射和残差映射的结合,使用BN加速训练并缓解梯度问题。深层模块参数量显著减少(从117万降至6.9万),虚线模块在跳跃连接中加入1×1卷积并调整步距,有效构建超深度网络(超1000层)。
2026-01-25 11:50:31
1372
1
原创 扩散模型对齐:DMPO 让模型更懂人类偏好
在统计学里,前向 KL 散度(也叫 I-projection)有一个著名特性:它要求模型q(x)必须在p(x)的每一个非零区域都分配质量,否则 KL→∞。如果人类偏好分布 p* 里“既喜欢卡通猫,也喜欢写实猫”,那么模型 pθ 就必须同时生成两种猫,哪怕训练数据里只给了“卡通猫更好”的提示。结果 → 一张图里卡通+写实混搭,耳朵毛绒绒、身体却高清毛发,四不像!✅一句话总结DMPO 用“反向 KL”让扩散模型不再平均化,而是精准命中人类最喜欢的模态,理论严谨 + 实验碾压。🔮未来方向。
2026-01-25 11:50:27
7387
1
原创 Data Augmentation数据增强
数据增强是通过对原始数据进行合理变换来扩充训练集的技术,分为有监督和无监督两类。有监督增强包括单样本操作(如几何/颜色变换)和多样本混合(如SMOTE、mixup)。无监督增强包含随机生成(如GAN)和学习策略(如AutoAugment)。该技术能有效解决数据不足问题,防止模型学习不相关特征,提升泛化能力。例如在图像识别中,通过旋转、颜色调整等操作可增加数据多样性,而不改变图像本质特征。
2026-01-24 12:49:17
1146
1
原创 SkyDiffusion:用 BEV 视角打开街景→航拍图像合成新范式
SkyDiffusion将曲面BEV视角变换与条件扩散模型结合,实现无需相机参数和文本输入的街景到航拍图像合成。该方法创新性地采用多图融合策略解决遮挡问题,并在灾害响应、无人机影像等三大场景取得SOTA性能。团队开源了包含2万张跨视角图像的Ground2Aerial-3数据集及完整代码。实验表明,SkyDiffusion在FID和SSIM指标上显著优于现有方法,能生成内容一致且逼真的航拍图像。该研究为跨视角合成提供了新思路,未来可拓展至视频生成和3D场景重建。
2026-01-24 12:48:51
11829
原创 【一文理解】下采样与上采样区别
对图像进行1/n下采样,原图像分辨率为H*W,下采样分辨率变为(H/n)*(W/n)对图像进行n上采样,原图像分辨率为H*W,下采样分辨率变为(nH)*(nW)转置卷积是卷积的一种,可使图片恢复成卷积前的尺寸,但是对应像素点的数值改变。主要通过是池化层或卷积层进行下采样。过滤无关信息,保留关键信息。反向提取特征,还原关键信息。上采样不是下采样的逆操作。
2026-01-22 16:41:01
2764
原创 【解决办法】报错Found dtype Long but expected Float
是两种常见的数据类型,分别对应于64位整数和32位浮点数。某些函数或操作可能只接受特定数据类型的输入。例如loss_func函数出现报错,它需要输入数据为float。这时候只需要通过.float将数据类型转为float即可满足loss_func的输入数据类型要求。需要注意的是这种转换可能会导致数据丢失,进而影响后续的计算,如这里的损失函数,因为。的张量传递给一个期望数据类型为Float。在PyTorch中,Long。类型的整数可以表示的范围比。
2026-01-21 12:10:40
840
原创 DataFrame中.iloc 属性
Pandas的iloc属性是基于整数位置的数据选择方法,不同于基于标签的loc。iloc使用0开始的索引,支持单行/列选择(如df.iloc[0])、多行/列切片(如df.iloc[0:3])、特定元素定位(如df.iloc[0,0])和布尔索引。常见错误包括直接使用整数索引(如z1[1])而非iloc方法,这可能导致混淆或错误。正确做法应使用z1.iloc[1]来选择第二行数据。使用时需注意索引从0开始,确保与列名准确匹配。
2026-01-20 17:14:49
2308
原创 最长连续序列(Longest Consecutive Sequence)
这篇文章介绍了一种在未排序整数数组中查找最长连续序列的O(n)算法。摘要如下: 核心思路:使用哈希集合存储数字实现O(1)查找,通过仅处理序列起点的贪心策略避免重复计算。 算法步骤: 将数组转为集合去重 遍历集合元素,当某元素是序列起点时开始向后扩张 记录并更新最大序列长度 关键优化: 起点剪枝确保每个序列只处理一次 哈希集合实现快速查找 复杂度:时间O(n),空间O(n) 注意事项:避免直接排序或不判起点等常见误区
2026-01-15 11:41:08
400
原创 【Python】家庭用电数据分析Prophet预测
摘要:该研究基于Kaggle家庭用电数据集(2007年1-6月,26万条记录),通过Prophet模型预测电力消耗趋势。数据集包含有功/无功功率、电压等7个特征。经数据清洗和探索性分析后,研究抽取1万样本进行预测建模,结果显示未来半年的功率和电压变化趋势。Prophet模型整合了趋势函数、季节性和节假日效应,具有自动检测趋势变化、处理缺失值等优势。通过可视化预测结果,验证了模型在电力消费预测中的有效性。
2026-01-14 15:50:42
2568
2
原创 【Python】家庭用电数据的时序分析
数据集包含了一个家庭6个月的用电数据,收集于2007年1月至2007年6月。这些数据包括全球有功功率、全球无功功率、电压、全球强度、分项计量1(厨房)、分项计量2(洗衣房)和分项计量3(电热水器和空调)等信息。该数据集共有260,640个测量值。列名说明Date日期Time时间该家庭所消耗的总有功功率(千瓦)该家庭消耗的总无功功率(千瓦)Voltage向家庭输送电力的电压(伏特)输送到家庭的平均电流强度(安培)厨房消耗的有功功率(千瓦)洗衣房所消耗的有功功率(千瓦)
2026-01-14 15:50:29
2157
原创 Hermite 插值
摘要 Hermite插值是一种高阶插值方法,要求在节点处不仅函数值相等,其导数值也要相等。给定n+1个节点处的函数值y_j和导数值m_j,可以唯一确定一个不超过2n+1次的多项式H_{2n+1}(x)。该方法通过增加对导数的约束条件,比普通多项式插值更能精确反映函数的局部特性,适用于需要更高精度逼近的实际问题。
2026-01-08 11:54:21
1034
原创 Encoder-Decoder Model编码器-解码器模型
摘要:编码器-解码器是一种深度学习模型,由编码器和解码器组成,用于处理序列到序列的任务。编码器将输入序列转换为固定长度的上下文向量,解码器将其转换为输出序列。该模型通过RNN、LSTM或GRU等循环结构实现,并引入注意力机制提高性能。工作流程包括输入编码、上下文向量生成和输出解码。广泛应用于机器翻译、图像处理等领域,能有效处理可变长度序列。
2026-01-03 13:29:35
1947
1
原创 哈希表解Two Sum问题
本文介绍了解决Two Sum问题的优化方法。该问题要求从整数数组中找到和为给定目标值的两个数的下标。通过使用哈希表存储已遍历元素及其索引,可将查找时间从O(N²)降至O(N)。具体步骤是:遍历数组时,检查哈希表中是否存在与当前元素配对的差值,若存在则返回结果,否则将当前元素存入哈希表。这种方法只需一次遍历,时间复杂度为O(N),空间复杂度为O(N)。示例展示了该方法的高效性,如nums=[2,7,11,15], target=9时,仅需两次遍历即可找到解[0,1]。
2026-01-03 10:00:00
1648
原创 【Python】数据可视化之聚类图
Seaborn的sns.clustermap函数用于创建聚类热图,通过颜色和位置直观展示数据相似性。主要参数包括数据输入、行列聚类控制、距离度量方法、标准化处理及颜色映射。函数返回ClusterGrid对象,支持进一步自定义。参考实现展示了不同应用场景:基础聚类、大小布局调整、彩色标签添加、颜色映射修改、聚类参数变更、数据标准化和规范化处理。该工具适用于探索性数据分析,但需注意大数据集可能增加计算时间。
2025-12-25 12:09:03
4706
1
原创 损失函数和调度器相关类代码回顾理解 |nn.CrossEntropyLoss\CosineAnnealingLR
文章摘要:介绍了PyTorch中两个重要模块:nn.CrossEntropyLoss和CosineAnnealingLR。交叉熵损失函数通过reduction="sum"参数将所有样本损失相加。余弦退火学习率调度器使用cosineannealing方法调整学习率,从初始值1e-4逐渐减小到最小值1e-5,并在4次迭代内完成一个周期。这两个模块分别用于模型训练的损失计算和学习率优化。
2025-12-18 13:46:41
551
原创 anaconda search&anaconda show | conda 检索包资源安装指定版本包指定源安装命令package
conda install有可能会受限于channel导致报错PackagesNotFoundError: The following packages are not available from current channels。通过anaconda show获取指定包的安装源信息和安装指令,例如这里选择了合适的名为fastchan/albumentations的包资源。可以看到检索到了十项albumentations包相关的资源,包括对应的包版本、类型、平台等信息。通过提供的指令安装指定包。
2025-12-14 11:47:07
1013
原创 【解决办法】网络训练报错AttributeError: ‘Config‘ object has no attribute ‘define_bool_state‘
深度学习网络训练报错"AttributeError: 'Config' object has no attribute 'define_bool_state'"通常是由于Flax与JAX版本不兼容导致。该错误表明Flax库试图调用JAX配置中不存在的define_bool_state方法。解决方法是通过命令"pip install --upgrade flax diffusers"升级Flax和Diffusers到最新版本,确保版本兼容性。这种API变动问题在深度学习
2025-12-14 11:46:25
699
原创 【解决办法】网络训练报错AttributeError: module ‘jax.core‘ has no attribute ‘Shape‘.
深度学习训练中报错"module 'jax.core' has no attribute 'Shape'"是由于jax与chex版本不兼容导致。该问题可通过升级chex包解决,新版本会调整对jax的API调用方式。使用命令"pip install --upgrade chex"更新chex包,其中pip是Python包管理工具,--upgrade选项指定升级操作,chex为需要升级的包名。升级后将确保chex与最新jax版本兼容。
2025-12-14 11:46:19
649
原创 数据集相关类代码回顾理解 | StratifiedShuffleSplit\transforms.ToTensor\Counter
这篇摘要介绍了PyTorch图像多分类项目中的两个核心工具:1) StratifiedShuffleSplit用于分层抽样划分训练/测试集,保持类别比例一致,通过设置n_splits、test_size和random_state参数控制划分;2) transforms.ToTensor将图像数据转换为PyTorch张量并归一化到[0,1]范围。还提到使用Counter统计各类别样本数量。这些方法共同确保了数据划分的科学性和数据处理的高效性。
2025-12-14 11:46:13
1078
原创 【解决办法】最新0.13.2Seaborn未以关键字参数传递数据,报错kdeplot() takes from 0 to 1 positional arguments but 2 were given
摘要:最新版Seaborn(0.13.2)中使用kdeplot绘制二维核密度图时,若直接传递位置参数会报错TypeError。解决方法是将x/y数据改为关键字参数形式传递:sns.kdeplot(x=x_data, y=y_data)。可通过添加shade参数和cmap调色板优化可视化效果。该问题源于新版本对参数传递方式的规范要求,使用关键字参数即可正常绘制二维核密度图。
2025-12-08 10:51:27
761
原创 【k近邻】Kd树构造与最近邻搜索示例
(4)如此递归,最后得到如上图所示的特征空间划分和如下图所示的。的区域与圆不相交,不可能有最近邻点,故继续返回上一级父结点。树可以省去对大部分数据点的搜索,从而减少搜索的计算量。将空间分为左、右两个子矩形(子结点);该区域在圆内的实例点有点。维空间中的数据进行快速检索的数据结构。维空间划分中的一个超矩形区域,利用。,使用kd树的最近邻搜索算法可以求得。维空间的一个划分,其每个结点对应于。例: 给定一个二维空间的数据集,(图中的右下区域), 以点。更近,成为新的最近邻近似;的区域内搜索最近邻,结点。
2025-12-05 11:07:07
1076
原创 数据集相关类代码回顾理解 | sns.distplot\%matplotlib inline\sns.scatterplot
本文介绍了PyTorch单目标检测项目中的三个关键操作:1)使用os.path.join智能拼接跨平台文件路径,确保路径正确性;2)通过sns.distplot绘制数据的直方图分布;3)实现数据增强的随机亮度调整功能,通过TF.adjust_brightness按概率参数修改图像亮度。这些操作分别涉及文件路径处理、数据可视化分析和图像预处理,是深度学习项目中常见的实用技术。
2025-12-05 11:06:01
791
原创 探索性数据分析|概念辨析
探索性数据分析(EDA)是由统计学家约翰·图基提出的数据科学基础技术,通过可视化和统计方法揭示数据特征。其核心在于"让数据说话",使用箱线图等工具快速识别分布模式、异常值和数据质量问题。EDA能验证假设、指导数据预处理、优化特征工程,并为后续建模提供可靠依据。这种方法强调交互性探索,帮助规避分析风险,提升团队沟通效率,是机器学习项目中不可或缺的关键环节。摘要字数:150字。
2025-12-02 16:05:52
575
原创 【线性代数】向量
向量可从几何(有向线段)、代数(有序数组)和抽象(满足向量空间公理的对象)三个视角理解。数学上,向量定义为基下的坐标表示,支持加法(分量相加)和数乘(标量乘法)运算。向量空间需满足封闭性、交换律等公理,确保线性结构的严谨性。几何上,加法对应首尾相接,数乘实现缩放。这种多元认知统一于线性代数的抽象框架中。
2025-11-18 11:05:33
1047
原创 【k近邻】Kd树的构造与最近邻搜索算法
Kd树是一种对K(与k近邻的k意义不同)维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。Kd树是一种二叉树,表示对K维空间的一个划分(partition)。构造Kd树相当于不断地用垂直于坐标轴的超平面将K维空间切分,构成一 系列的K维超矩形区域。Kd树的每个结点对应于一个k维超矩形区域。
2025-11-13 10:18:06
1333
原创 【k近邻】 K-Nearest Neighbors算法距离度量选择与数据维度归一化
(K-Nearest Neighbors,简称KNN)是一种常用的监督学习算法,可以用于分类和回归问题。在OpenCV中,KNN算法的函数为`cv.ml.KNearest_create()。
2025-11-13 10:17:57
1017
原创 【PyTorch】单目标检测部署
详细参照前文【PyTorch】单目标检测项目import os# 定义一个函数,用于将a列表中的元素除以b列表中的对应元素,返回一个新的列表# 使用zip函数将a和b列表中的元素一一对应# 返回新的列表return div# 定义一个函数,用于将a列表中的元素乘以b列表中的对应元素,返回一个新的列表# 使用zip函数将a和b列表中的元素一一对应# 返回新的列表return div# 定义一个函数,用于调整图像和标签的大小# 获取原始图像的宽度和高度# 获取目标图像的宽度和高度。
2025-11-04 13:27:18
1227
原创 【PyTorch】单目标检测
介绍了基于残差网络的单对象检测方法在AMD眼底图像中央凹定位中的应用。首先阐述了对象检测的基本概念和边界框表示方法,详细说明了用于AMD检测的Training400数据集特性。通过探索性数据分析展示了数据分布特征。随后构建了包含数据增强、自定义数据集和ResNet架构的完整模型流程,使用平滑L1损失函数和Adam优化器进行训练。实验结果表明,该方法能有效定位中央凹位置,验证集准确率达到较高水平。文中还详细解释了模型训练过程的损失和精度变化曲线,为医学图像分析中的对象检测任务提供了实用参考方案。
2025-11-03 10:02:48
4928
2
原创 勒让德多项式
勒让德多项式是在区间[-1,1]上由{1,x,...,x^n,...}正交化得到的一组正交多项式,记作Pₙ(x)。其递推公式为:(n+1)Pₙ₊₁(x)=(2n+1)xPₙ(x)-nPₙ₋₁(x)。前几项为:P₀(x)=1,P₁(x)=x,P₂(x)=(3x²-1)/2,P₃(x)=(5x³-3x)/2,P₄(x)=(35x⁴-30x²+3)/8等。勒让德多项式在数学物理中有重要应用。
2025-10-29 20:53:40
2004
原创 求解一次最佳平方逼近多项式
本文求解函数$f(x)=\sqrt{1+x^2}$在区间$[0,1]$上的最佳一次平方逼近多项式。通过计算积分得到系数方程组,解得逼近多项式为$S_1^*(x)=0.934+0.426x$,其平方误差为0.0026,最大误差为0.066。
2025-10-28 13:38:10
1580
原创 【PyTorch】神经风格迁移
本文介绍了神经风格迁移的实现过程,通过结合内容图像和风格图像生成新的艺术化图像。主要内容包括:1)数据准备与预处理,使用PIL和torchvision处理图像;2)加载预训练的VGG19模型作为特征提取器;3)定义内容损失和风格损失函数,其中风格损失采用Gram矩阵计算;4)使用Adam优化器迭代优化输入图像。实验结果表明,该方法能有效保留内容图像的结构同时融合风格图像的艺术特征。整个流程在300轮迭代后能生成质量较好的风格迁移图像。
2025-10-08 15:30:04
1128
原创 【PyTorch】基于YOLO的多目标检测(二)
本文介绍了基于PyTorch实现YOLOv3多目标检测项目的完整流程。项目使用416x416输入图像,构建包含卷积层、上采样层和跳跃连接的DarkNet模型,通过三个YOLO输出层进行目标检测。文章详细讲解了配置文件解析、模型搭建、损失函数定义(包含坐标、置信度和分类损失)以及训练过程(使用Adam优化器和学习率调度器)。实验部分展示了在COCO数据集上的训练结果,并演示了如何加载训练好的权重进行目标检测。整个项目采用模块化设计,包含数据预处理、模型构建、训练和部署全流程。
2025-10-07 14:34:38
1627
HCCDA – AI华为云人工智能开发者认证60判断题及答案.docx
2023-09-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅