- 博客(272)
- 资源 (3)
- 收藏
- 关注
原创 注意力机制
注意力机制的诞生源头——来自解决机器语言翻译,比如中英文、英法等语言互相翻译,原先的RNN模型没有区分翻译各个词的重要程度,为了解决这个东西才诞生了注意力机制,后来成为NLP的核心,成长成如今大模型的模样。说白了,就是把人的注意力机制让神经网络实现。
2026-04-29 03:53:28
21
原创 yolo-ultralytics代码仓库学习笔记
YOLOv3采用Anchor-Based机制,需要预先设定9个不同尺度和宽高比的锚框(Anchor)。注意:YOLOv3的输入尺寸是416×416,YOLOv8是640×640,参数不可直接比较,但可以看出明显趋势。超参数敏感:Anchor的尺寸、宽高比需要针对不同数据集精心设计。正负样本不平衡:大量Anchor是负样本,导致训练效率低。泛化能力弱:在目标尺度变化大的场景表现不佳。直接预测:直接预测目标中心点到四边的距离。任务专注:每个分支专注于自己的任务。任务冲突:分类和回归的目标不一致。
2026-04-14 18:57:28
493
原创 风口——时代的脉搏
智能体赋能,它会帮你干活,取快递,做饭,辅导孩子,陪你聊天,打游戏等等。第1类,Cursor,trae,open claw等这类产品。第2类,AI短视频或短剧。人人都可以是导演编剧演员!第3类,AI手机,它会帮你聊天,购物等等。当前或未来风口:AI智能体是关键。
2026-04-04 22:20:31
249
原创 VideoPipe学习之环境搭建及编译ubuntu240403
本文记录了在Ubuntu 24.04系统上搭建VideoPipe开发环境的详细过程。环境要求包括C++17、OpenCV 4.6+、GStreamer 1.14.5和GCC 7.5+。文章提供了环境检测脚本,通过测试OpenCV的GStreamer和FFmpeg后端功能来验证环境配置。脚本可自动编译并运行测试程序,输出OpenCV版本信息、后端支持状态以及编译配置详情。所有相关资源已上传至CSDN平台供自由下载。测试结果显示系统已默认安装所需依赖,为后续VideoPipe开发奠定了基础。
2026-02-01 21:07:32
416
原创 RNN基础学习
把文本先分词,然后每个词映射为词向量(一维向量),就是把我这句话映射为n维数组,由文本词变成了数字。然后训练学习最后就认识了这些词。
2026-01-24 08:52:54
820
原创 CNN基础学习
还有一点原因是如果不填充,通过卷积核扫描计算,它边界(上下左右)的元素被扫描的少,信息就有确实,所以就填充(padding)。特点:池化操作是确定性的,没有需要学习的参数。现在感觉,神经网络模型成为了基本单元,或者原理图的元器件,基于这个基础来设计各个架构CNN呀,RNN,transformer等。它将前面卷积和池化层提取到的、在空间上展开的二维高级特征“拉直”成一维向量,并进行综合,用于最终的分类或回归输出。注意:在现代架构(如ResNet)中,常用“全局平均池化”替代一部分全连接层,以减少过拟合。
2026-01-11 13:39:44
363
原创 ANN学习笔记
均匀分布初始化,值在这个区间(-1/√d,1/√d),均匀分布就是在这个区间取任何值的概率相同,平等的,一视同仁。注意,这个d是针对的某个神经元的,聚焦到一个神经元。每层每个神经元都是这样初始化。那就看该神经元输入的权重参数有几个,输入3个那d就是3。上面初始化只是常用的,后续有各种优化或改进,如下改进。均值为0,方差为1的高斯正态分布。每个神经元的偏置如何初始化?全0初始化,使用较多。全1初始化,使用较少。
2025-12-10 10:01:12
332
原创 yolov8通过百度飞桨AIstudio搭建训练平台
百度飞桨AIstudio平台搭建的环境如下:但是需要参照教程自己重新搭建,因为它的环境公开的只能1GB文件,但超过了1GB,只能筛选,所以不全。具体操作步骤,包括免费使用百度飞桨AIstudio平台的教程也是参考如下博客。
2025-12-08 00:10:45
1058
原创 pycharm2025导入anaconda创建的各个AI环境
PyCharm最新版2025.2取消了社区版和专业版的区分,建议从官网下载安装。安装完成后,可通过"自定义环境"选项导入Anaconda创建的AI框架环境,如PyTorch等。操作时选择conda路径(如anaconda3\condabin\conda.bat),系统会自动同步Anaconda中的环境。文中提供了验证GPU可用的Python代码示例,并推荐参考相关Anaconda环境创建教程。整个过程简单直接,适合快速搭建开发环境。
2025-08-15 07:20:55
982
原创 AI框架与cuda生态及anaconda环境
比如你装pytorch或者tensorflow所需cuda版本是xxx,cudnn版本是yyy,那么你应该先去英伟达官网看下哪个GPU驱动版本支持该cuda版本,或者干脆安装当前时间空间中GPU支持的最新GPU驱动版本,这样理论上基本上所有cuda版本都能装,但是也要看GPU硬件,垃圾的gpu硬件装最新的驱动可能有兼容性问题和性能损好,不过只要不是低端gpu或者过时20多年前的gpu,应该官网都会支持比较新大驱动,需要自己探索。,是具体的AI基础服务实现,比如对神经网络的封装,自动梯度推导等等等等。
2025-08-12 04:40:03
559
原创 程序代码阅读高效方法探索
不管是oopc还是oop的语言,只要是面向对象思想,程序的组织就是各个对象交织在一起了。面向对象的程序,整体感觉,就是由各个对象的属性和方法来组成的。满眼看到的就是各个对象。组织方式就是设计模式。
2024-10-27 06:18:07
198
原创 你遇到过哪些技术类奇葩翻译词汇?
英文原版是“default value”,英文意思默认值,中文翻译成“缺省值”。英文原版是“flyweight pattern”,英文愿意是轻量级模式,中文翻译为“享元”。这样重复的对话可能会持续很多年。“老师,啥是缺省值?“缺省值就是默认值。
2024-07-27 12:46:11
430
原创 DP讨论——设计模式怎么来的?
想一想,设计模式的开源是哪里?——碰到这样的事物/问题,用这样一套形式的代码来解决——人类积攒的代码形式(套路)上的解决方案,称之为“设计模式”。才明白,设计模式也不是那么高大上——原来c开发的代码框架上就用了——比如单例模式,模板模式等,只是当时头脑中没有所谓的“设计模式”的概念,这些代码放到我眼前,我也看不见。在这一过程,零零散散的看过大话设计模式什么的,但是总是思想上畏惧,还是觉得高大上还是很排斥。几年前还在搞c开发,觉得设计模式离我太遥远,而且觉得设计模式太复杂太高大上,比较恐惧。
2024-07-11 14:36:48
496
原创 videopipe学习之节点数据流转机制探索
本文深入分析了VideoPipe框架中节点间数据流转的实现机制。文章首先从attach_to方法入手,揭示了其本质是消费者向生产者注册的发布订阅模式实现。通过分析vp_node的多重继承结构,展示了装饰器模式如何为节点动态添加发布、订阅和监控能力。详细阐述了处理线程和分发线程的工作流程,包括数据生产、消费和分发的完整链路。特别指出框架如何通过发布订阅模式实现节点间数据流转,同时结合生产者-消费者模式处理节点内部队列管理。文章还揭示了监控钩子的触发时机,展现了多种设计模式在VideoPipe中的协同应用。
2026-05-09 05:45:36
646
原创 videopipe学习之从运行面板开始
此处的 out_queue.size()被传递给钩子,最终被 vp_node_on_screen记录到 meta_handled_hooker_storage.queue_size。vp_analysis_board初始化:调用 init(),通过 vp_pipe_checker验证管道结构,计算出布局,创建 vp_node_on_screen对象,并调用其 render_static_parts绘制静态背景。用户调用 vp_analysis_board board({file_src_0});
2026-05-01 13:56:56
556
原创 Linux调度器:C 语言面向对象(OOPC)的极致实践
* kernel/sched/sched.h - 调度器的抽象基类 *//* 继承链:通过next指针实现优先级继承 *//* 任务管理接口 *//* 任务调度接口 *//* 任务生命周期接口 */// 构造函数// 析构函数/* 状态切换接口 *//* 其他必要接口 */设计思想:这是一个纯虚基类,定义了调度器必须实现的接口,但不提供任何实现。封装每个调度器的实现封装在独立的文件中。调度器内部数据结构对外隐藏。通过接口访问调度器功能。
2026-04-17 09:01:25
423
原创 videopipe学习之demo运行
本文介绍了VideoPipe demo的运行方法。首先需要准备模型数据,提供了百度网盘下载链接(vp_data)。建议使用MobaXterm作为远程终端工具。运行前需将vp_data目录与demo程序放在同级目录,因为代码中硬编码了数据路径(./vp_data/)。最后展示了运行效果截图,成功实现了人脸检测和识别功能。文中还对比了不同终端工具在X11转发方面的优劣,推荐使用更稳定的MobaXterm。
2026-04-15 18:36:33
252
原创 yolov8-v26代码路径及vscode环境搭建记录
Ultralytics 官方仓库:https://github.com/ultralytics/ultralytics。只要上述命令能正常输出版本号(如 8.4.36),就说明你的源码安装和环境配置已经成功了,可以开始看源码了。装完后跑 python -c “import torch;print(torch.直接打印 ultralytics模块的版本属性。)”,能正常输出版本号就说明没问题了。这是目前维护最活跃、最权威的版本。切换到标签8.4.36版本。方法1:通过导入模块获取。
2026-04-13 17:29:33
330
原创 yolov3学习之官方训练代码实现
以 YOLOv3(yolov3.yaml)作为模型架构,COCO128(coco128.yaml)作为数据集,并采用 416×416 输入图像尺寸为例。训练入口是train.py的train函数,另外训练还涉及到如下文件:(1)utils/ 目录下多个文件:dataloaders.py → 数据加载loss.py → 损失计算general.py → 工具函数torch_utils.py → 设备、EMA 等loggers/ → 日志记录callbacks.py → 回调机制。
2026-04-04 10:23:30
272
原创 YOLOv3学习之3个目标损失任务协同
本文深入解析了YOLOv3目标检测系统的多目标损失协同机制。该系统通过三个独立损失函数分别处理定位、存在性判断和目标识别任务:坐标损失(CIoU)优化边界框位置,置信度损失(二元交叉熵)评估目标存在概率,类别损失(多标签交叉熵)实现分类识别。这三个损失在训练过程中动态协同:初期置信度主导,中期三者均衡,后期精细优化。文章详细阐述了梯度传播的协同效应、多尺度检测的一致性学习、损失权重设计艺术,以及与传统单损失设计的对比优势。这种"分而治之,协同优化"的机制使YOLOv3实现了高精度定位、可
2026-04-04 10:20:58
112
原创 YOLOv3目标类型训练:教网络识别“目标是什么“
本文详细解析了YOLOv3目标检测算法的核心设计原理。其创新性地采用3个尺度特征图(13×13、26×26、52×52)分别检测大、中、小物体,每个尺度配备3个先验框(Anchor Box),共9个聚类生成的参考尺寸。先验框通过提供基准尺寸显著降低了模型学习难度,只需预测偏移量而非绝对坐标。网络输出三个特征图的预测结果,共产生10647个候选框(13×13×3+26×26×3+52×52×3),每个框包含位置偏移、置信度和类别概率。最终通过非极大值抑制(NMS)筛选出有效检测框。文章还特别强调,先验框需根据
2026-04-04 10:05:57
115
原创 yolov3学习之目标置信度训练
YOLOv3 是一个单阶段、多尺度、多任务的目标检测器。其训练目标可分解为三个子任务:总损失函数为三者的加权和:其中权重 λ通常来自超参数配置(如 hyp.scratch.yaml 中 box=0.05, obj=1.0, cls=0.5)。
2026-04-04 10:00:47
570
2
原创 yolov3学习之目标坐标训练机制:从定层匹配、网格编码到CIoU损失
YOLOv3的定位损失设计通过网格划分和锚框机制,将绝对坐标预测转化为局部偏移量回归。它将输入图像划分为网格,每个网格负责预测目标在其"责任田"内的归一化偏移量(中心点使用Sigmoid约束到[0,1),宽高基于锚框进行对数变换)。损失函数在偏移量尺度上计算预测值与真实值的均方误差,使训练更加稳定。这种设计将全局回归问题分解为多个局部简单回归任务,大大提高了检测精度和训练效率。
2026-04-04 09:59:34
824
原创 yolov3学习之训练原理
YOLOv3采用多任务损失函数设计,由边界框坐标损失、置信度损失和分类损失三部分加权组成。通过多尺度输出(52×52、26×26、13×13特征图)和正样本稀疏分配机制优化训练效果。训练策略包括混合精度训练、梯度累积等技巧。值得注意的是,叠加损失不会显著增加计算量,因为前向传播只需执行一次,反向传播时梯度在共享节点自动累加。虽然GPU显存需求略有增加(约10%),但训练速度差异通常小于5%。该设计在保持高效的同时,实现了精准的目标检测能力。
2026-04-04 09:57:49
240
原创 yolov3学习之官方基础模块及推理代码学习
YOLOv3网络结构分析摘要(149字): YOLOv3官方实现将网络拆解为三个核心模块:Conv类实现CBL基础组件(卷积+BN+SiLU),Bottleneck类构建残差单元,Detect类处理预测头。其中Conv类通过autopad函数自动计算填充,保证特征图尺寸稳定;Bottleneck采用"压缩-处理"结构并支持可选残差连接,既用于主干网络又可适配Neck层。网络构建采用模块化设计,基础组件灵活组合形成Darknet-53主干和特征金字塔。特别注意的是,原LeakyReLU激活
2026-04-04 07:48:06
362
原创 yolov3学习之检测原理
YOLOv3检测原理摘要:YOLOv3采用3个尺度(13×13、26×26、52×52)的特征图检测不同大小物体,每个尺度对应3个通过K-means聚类得到的先验框(共9个)。模型预测时,每个网格基于先验框预测3个候选框(含位置偏移、置信度和类别概率),总计输出10647个候选框(13×13×3 + 26×26×3 + 52×52×3)。先验框作为基准模板,降低模型学习难度,但需与数据集物体形状匹配。不同数据集需重新聚类生成适配的先验框。最终输出经NMS筛选得到有效检测结果。
2026-04-04 07:46:35
267
原创 yolov3学习之源码代码路径及运行环境搭建
两个最经典、最适合学习的开源仓库。你可以直接复制下面的地址,在浏览器中打开或使用 git clone命令下载。
2026-04-03 11:05:57
694
原创 yolov3学习之全网最好网络结构图采集
YOLOv3核心架构解析:ResNet与FPN的巧妙融合 摘要:YOLOv3通过融合ResNet残差连接和FPN多尺度特征,构建了高效的目标检测框架。其Backbone采用Darknet53替代ResNet,使用步长2卷积下采样并保留LeakyReLU激活;Neck部分通过自顶向下路径和横向连接实现特征融合,但用concat替代FPN的add操作。这种设计在保持多尺度检测优势的同时,提升了信息完整性和计算效率。建议学习路径:先掌握YOLOv3经典结构,再进阶到v5/v8等工业版本。网络结构可分为特征提取(B
2026-03-11 08:31:01
647
原创 FPN网络学习
它的出现是为了解决目标检测中小目标漏检的问题,人类哇,不断探索,于是SSD,FPN等等不断探索出来了。各种网络结构,其实都是实验探索出来的,那么神经网络呀,还真是实验科学。
2026-03-10 20:01:17
228
原创 编程语言演进之否定之否定规律
所以,你的感觉没错。编程语言的进化史,就是一部“解决前代痛点”的历史。每一代新语言都在否定前代的缺陷,但往往也会继承前代的优点(如 Kotlin 继承 JVM 生态),最终推动整个行业向更高效、更安全的方向发展。
2026-03-09 10:54:27
84
原创 ResNet网络学习
摘要:本文系统梳理了ResNet网络的核心思想及其对深度学习发展的深远影响。重点分析了残差连接(Skip Connection)如何解决深层网络训练的梯度消失问题,使训练超深网络(如1000层)成为可能。文章详细解读了ResNet的基本结构单元(BasicBlock和Bottleneck)及其在不同深度网络中的应用方式,并对比了ResNet与传统CNN的结构差异。特别指出ResNet仅使用2个池化层的创新设计突破了传统"卷积+池化"的固定范式。最后,文章总结了ResNet对后续网络架构(
2026-03-07 19:56:43
565
原创 GoogLeNet学习
GoogLeNet(Inception v1)是2014年ImageNet竞赛冠军网络,其核心创新在于Inception模块的设计。该模块通过并行使用不同尺寸的卷积核进行特征提取,再将结果合并,实现了传统卷积层的"超级进化"。网络结构采用"卷积块+池化层"范式,包含5个卷积块(前2个为传统卷积层,后3个由9个Inception模块组成)和2个辅助分类器,共计22层可训练层。Inception模块的创新设计显著提升了特征表达能力,同时保持了计算效率,为后续深度网络发展提
2026-03-07 19:38:46
354
原创 trae solo模式使用体验
Trae是字节跳动推出的AI编程助手,旨在解决开发者与大模型交互中的痛点。它通过创建"AI工程师"角色,自动管理代码文件、压缩对话内容、生成修改对比,并具备自修复功能,显著提升了开发效率。目前同类产品中,Cursor以强大功能领先但价格高,通义灵码性价比最优,而Trae在国产化适配和价格方面具有优势。随着AI技术进步,这类工具将从简单项目逐步拓展到复杂开发场景,展现巨大发展潜力。选型建议根据自动化需求、预算和开发环境而定,Trae特别适合追求性价比的国内开发者。
2026-03-02 08:06:05
637
原创 LeNet、AlexNet、VGGNet、NiN总结
纵观LeNet、AlexNet、VGGNet、NiN的网络结构,有的把它们的卷积的相关结构抽象成Lenet卷积块、AlexNet卷积块、VGGNet卷积块、NiN卷积块,但是抛开一切什么理论,只从单纯的网络结构上看,我只看到了卷积块+池化层结构。从AlexNet再次引爆深度学习后,各种神经网络结构不断探索实验出来,被实验证明有效果后,该结构就成为了后续神经网络结构的基本组件或者基类浓缩为了经验精华。LeNet就是1+1+3FC,也就是1个卷积层组成的卷积块+1个卷积层组成的卷积块+3个全连接层;
2026-02-22 23:15:11
323
原创 连接主义的体会
卷积核原以为是个端点,但是在神经网络里原来它存在于连接中(也就是分布在连线中),它是过程的连线,而不是端点。看神经网络结构,它一次次逼迫我的思维从“连接主义”角度看。原以为它只是个名词,但实际上它贯穿了整个神经网络结构。还有各种参数是分布在各个连接线中的。
2026-02-21 08:00:20
34
原创 NIN网络学习
NIN(Network in Network)是陈天奇(Min Lin)等人在2014年提出的经典网络结构。直接参与了2014年的ImageNet大赛,虽然最终冠军是GoogLeNet,但它通过一系列“实验科学”般的探索,为深度学习贡献了两项核心经验——1x1卷积和全局平均池化思想被GoogLeNet和后续的ResNet等网络吸收采纳,成为了现代深度学习的基石技术。
2026-02-20 21:59:51
603
1
原创 VGGNet网络学习
VGGNet(Visual Geometry Group Network)是由牛津大学视觉几何组(Visual Geometry Group)在2014年提出的深度卷积神经网络模型。它在当年的ImageNet大规模视觉识别挑战赛(ILSVRC)中取得了优异的成绩,并因其简洁而有效的设计成为深度学习领域的经典架构之一。
2026-02-19 05:29:02
760
1
VideoPipe环境搭建及编译ubuntu240403
2026-02-01
IAR下建立STM32f103zet6工程基于野火霸道开发板
2019-01-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅