云会宾-CSDN博客

原创注意力机制

注意力机制的诞生源头——来自解决机器语言翻译，比如中英文、英法等语言互相翻译，原先的RNN模型没有区分翻译各个词的重要程度，为了解决这个东西才诞生了注意力机制，后来成为NLP的核心，成长成如今大模型的模样。说白了，就是把人的注意力机制让神经网络实现。

2026-04-29 03:53:28 21

YOLOv3采用Anchor-Based机制，需要预先设定9个不同尺度和宽高比的锚框（Anchor）。注意：YOLOv3的输入尺寸是416×416，YOLOv8是640×640，参数不可直接比较，但可以看出明显趋势。超参数敏感：Anchor的尺寸、宽高比需要针对不同数据集精心设计。正负样本不平衡：大量Anchor是负样本，导致训练效率低。泛化能力弱：在目标尺度变化大的场景表现不佳。直接预测：直接预测目标中心点到四边的距离。任务专注：每个分支专注于自己的任务。任务冲突：分类和回归的目标不一致。

2026-04-14 18:57:28 493

原创风口——时代的脉搏

智能体赋能，它会帮你干活，取快递，做饭，辅导孩子，陪你聊天，打游戏等等。第1类，Cursor，trae，open claw等这类产品。第2类，AI短视频或短剧。人人都可以是导演编剧演员！第3类，AI手机，它会帮你聊天，购物等等。当前或未来风口：AI智能体是关键。

2026-04-04 22:20:31 249

原创 VideoPipe学习之环境搭建及编译ubuntu240403

本文记录了在Ubuntu 24.04系统上搭建VideoPipe开发环境的详细过程。环境要求包括C++17、OpenCV 4.6+、GStreamer 1.14.5和GCC 7.5+。文章提供了环境检测脚本，通过测试OpenCV的GStreamer和FFmpeg后端功能来验证环境配置。脚本可自动编译并运行测试程序，输出OpenCV版本信息、后端支持状态以及编译配置详情。所有相关资源已上传至CSDN平台供自由下载。测试结果显示系统已默认安装所需依赖，为后续VideoPipe开发奠定了基础。

2026-02-01 21:07:32 416

原创 RNN基础学习

把文本先分词，然后每个词映射为词向量（一维向量），就是把我这句话映射为n维数组，由文本词变成了数字。然后训练学习最后就认识了这些词。

2026-01-24 08:52:54 820

原创 CNN基础学习

还有一点原因是如果不填充，通过卷积核扫描计算，它边界（上下左右）的元素被扫描的少，信息就有确实，所以就填充（padding）。特点：池化操作是确定性的，没有需要学习的参数。现在感觉，神经网络模型成为了基本单元，或者原理图的元器件，基于这个基础来设计各个架构CNN呀，RNN，transformer等。它将前面卷积和池化层提取到的、在空间上展开的二维高级特征“拉直”成一维向量，并进行综合，用于最终的分类或回归输出。注意：在现代架构（如ResNet）中，常用“全局平均池化”替代一部分全连接层，以减少过拟合。

2026-01-11 13:39:44 363

原创 ANN学习笔记

均匀分布初始化，值在这个区间（-1/√d，1/√d），均匀分布就是在这个区间取任何值的概率相同，平等的，一视同仁。注意，这个d是针对的某个神经元的，聚焦到一个神经元。每层每个神经元都是这样初始化。那就看该神经元输入的权重参数有几个，输入3个那d就是3。上面初始化只是常用的，后续有各种优化或改进，如下改进。均值为0，方差为1的高斯正态分布。每个神经元的偏置如何初始化？全0初始化，使用较多。全1初始化，使用较少。

2025-12-10 10:01:12 332

原创 yolov8通过百度飞桨AIstudio搭建训练平台

百度飞桨AIstudio平台搭建的环境如下：但是需要参照教程自己重新搭建，因为它的环境公开的只能1GB文件，但超过了1GB，只能筛选，所以不全。具体操作步骤，包括免费使用百度飞桨AIstudio平台的教程也是参考如下博客。

2025-12-08 00:10:45 1058

原创 pycharm2025导入anaconda创建的各个AI环境

PyCharm最新版2025.2取消了社区版和专业版的区分，建议从官网下载安装。安装完成后，可通过"自定义环境"选项导入Anaconda创建的AI框架环境，如PyTorch等。操作时选择conda路径（如anaconda3\condabin\conda.bat），系统会自动同步Anaconda中的环境。文中提供了验证GPU可用的Python代码示例，并推荐参考相关Anaconda环境创建教程。整个过程简单直接，适合快速搭建开发环境。

2025-08-15 07:20:55 982

原创 anaconda创建pytorch1.10.0和pytorch2.0.0的GPU环境

[TOC]目录。

2025-08-14 23:14:26 1737 4

原创 AI框架与cuda生态及anaconda环境

比如你装pytorch或者tensorflow所需cuda版本是xxx，cudnn版本是yyy，那么你应该先去英伟达官网看下哪个GPU驱动版本支持该cuda版本，或者干脆安装当前时间空间中GPU支持的最新GPU驱动版本，这样理论上基本上所有cuda版本都能装，但是也要看GPU硬件，垃圾的gpu硬件装最新的驱动可能有兼容性问题和性能损好，不过只要不是低端gpu或者过时20多年前的gpu，应该官网都会支持比较新大驱动，需要自己探索。，是具体的AI基础服务实现，比如对神经网络的封装，自动梯度推导等等等等。

2025-08-12 04:40:03 559

原创程序代码阅读高效方法探索

不管是oopc还是oop的语言，只要是面向对象思想，程序的组织就是各个对象交织在一起了。面向对象的程序，整体感觉，就是由各个对象的属性和方法来组成的。满眼看到的就是各个对象。组织方式就是设计模式。

2024-10-27 06:18:07 198

原创你遇到过哪些技术类奇葩翻译词汇？

英文原版是“default value”，英文意思默认值，中文翻译成“缺省值”。英文原版是“flyweight pattern”，英文愿意是轻量级模式，中文翻译为“享元”。这样重复的对话可能会持续很多年。“老师，啥是缺省值？“缺省值就是默认值。

2024-07-27 12:46:11 430

原创 DP讨论——设计模式怎么来的？

想一想，设计模式的开源是哪里？——碰到这样的事物/问题，用这样一套形式的代码来解决——人类积攒的代码形式（套路）上的解决方案，称之为“设计模式”。才明白，设计模式也不是那么高大上——原来c开发的代码框架上就用了——比如单例模式，模板模式等，只是当时头脑中没有所谓的“设计模式”的概念，这些代码放到我眼前，我也看不见。在这一过程，零零散散的看过大话设计模式什么的，但是总是思想上畏惧，还是觉得高大上还是很排斥。几年前还在搞c开发，觉得设计模式离我太遥远，而且觉得设计模式太复杂太高大上，比较恐惧。

2024-07-11 14:36:48 496

原创 videopipe学习之节点数据流转机制探索

本文深入分析了VideoPipe框架中节点间数据流转的实现机制。文章首先从attach_to方法入手，揭示了其本质是消费者向生产者注册的发布订阅模式实现。通过分析vp_node的多重继承结构，展示了装饰器模式如何为节点动态添加发布、订阅和监控能力。详细阐述了处理线程和分发线程的工作流程，包括数据生产、消费和分发的完整链路。特别指出框架如何通过发布订阅模式实现节点间数据流转，同时结合生产者-消费者模式处理节点内部队列管理。文章还揭示了监控钩子的触发时机，展现了多种设计模式在VideoPipe中的协同应用。

2026-05-09 05:45:36 646

原创 videopipe学习之从运行面板开始

此处的 out_queue.size()被传递给钩子，最终被 vp_node_on_screen记录到 meta_handled_hooker_storage.queue_size。vp_analysis_board初始化：调用 init()，通过 vp_pipe_checker验证管道结构，计算出布局，创建 vp_node_on_screen对象，并调用其 render_static_parts绘制静态背景。用户调用 vp_analysis_board board({file_src_0});

2026-05-01 13:56:56 556

原创 Linux调度器：C 语言面向对象（OOPC）的极致实践

* kernel/sched/sched.h - 调度器的抽象基类 *//* 继承链：通过next指针实现优先级继承 *//* 任务管理接口 *//* 任务调度接口 *//* 任务生命周期接口 */// 构造函数// 析构函数/* 状态切换接口 *//* 其他必要接口 */设计思想：这是一个纯虚基类，定义了调度器必须实现的接口，但不提供任何实现。封装每个调度器的实现封装在独立的文件中。调度器内部数据结构对外隐藏。通过接口访问调度器功能。

2026-04-17 09:01:25 423

原创 videopipe学习之demo运行

本文介绍了VideoPipe demo的运行方法。首先需要准备模型数据，提供了百度网盘下载链接(vp_data)。建议使用MobaXterm作为远程终端工具。运行前需将vp_data目录与demo程序放在同级目录，因为代码中硬编码了数据路径(./vp_data/)。最后展示了运行效果截图，成功实现了人脸检测和识别功能。文中还对比了不同终端工具在X11转发方面的优劣，推荐使用更稳定的MobaXterm。

2026-04-15 18:36:33 252

原创 AI的实验科学

我猜测深度学习可能涉及到高维的理论，所以当前的发展就像古代炼丹术士一样进行实验科学，慢慢探索它完整的理论。

2026-04-14 14:37:54 47

原创 yolov8-v26代码路径及vscode环境搭建记录

Ultralytics 官方仓库：https://github.com/ultralytics/ultralytics。只要上述命令能正常输出版本号（如 8.4.36），就说明你的源码安装和环境配置已经成功了，可以开始看源码了。装完后跑 python -c “import torch;print(torch.直接打印 ultralytics模块的版本属性。)”，能正常输出版本号就说明没问题了。这是目前维护最活跃、最权威的版本。切换到标签8.4.36版本。方法1：通过导入模块获取。

2026-04-13 17:29:33 330

原创 yolov3学习之官方训练代码实现

以 YOLOv3（yolov3.yaml）作为模型架构，COCO128（coco128.yaml）作为数据集，并采用 416×416 输入图像尺寸为例。训练入口是train.py的train函数，另外训练还涉及到如下文件：(1)utils/ 目录下多个文件：dataloaders.py → 数据加载loss.py → 损失计算general.py → 工具函数torch_utils.py → 设备、EMA 等loggers/ → 日志记录callbacks.py → 回调机制。

2026-04-04 10:23:30 272

原创 YOLOv3学习之3个目标损失任务协同

本文深入解析了YOLOv3目标检测系统的多目标损失协同机制。该系统通过三个独立损失函数分别处理定位、存在性判断和目标识别任务：坐标损失（CIoU）优化边界框位置，置信度损失（二元交叉熵）评估目标存在概率，类别损失（多标签交叉熵）实现分类识别。这三个损失在训练过程中动态协同：初期置信度主导，中期三者均衡，后期精细优化。文章详细阐述了梯度传播的协同效应、多尺度检测的一致性学习、损失权重设计艺术，以及与传统单损失设计的对比优势。这种"分而治之，协同优化"的机制使YOLOv3实现了高精度定位、可

2026-04-04 10:20:58 112

原创 YOLOv3目标类型训练：教网络识别“目标是什么“

本文详细解析了YOLOv3目标检测算法的核心设计原理。其创新性地采用3个尺度特征图（13×13、26×26、52×52）分别检测大、中、小物体，每个尺度配备3个先验框（Anchor Box），共9个聚类生成的参考尺寸。先验框通过提供基准尺寸显著降低了模型学习难度，只需预测偏移量而非绝对坐标。网络输出三个特征图的预测结果，共产生10647个候选框（13×13×3+26×26×3+52×52×3），每个框包含位置偏移、置信度和类别概率。最终通过非极大值抑制(NMS)筛选出有效检测框。文章还特别强调，先验框需根据

2026-04-04 10:05:57 115

原创 yolov3学习之目标置信度训练

YOLOv3 是一个单阶段、多尺度、多任务的目标检测器。其训练目标可分解为三个子任务：总损失函数为三者的加权和：其中权重 λ通常来自超参数配置（如 hyp.scratch.yaml 中 box=0.05, obj=1.0, cls=0.5）。

2026-04-04 10:00:47 570 2

原创 yolov3学习之目标坐标训练机制：从定层匹配、网格编码到CIoU损失

YOLOv3的定位损失设计通过网格划分和锚框机制，将绝对坐标预测转化为局部偏移量回归。它将输入图像划分为网格，每个网格负责预测目标在其"责任田"内的归一化偏移量（中心点使用Sigmoid约束到[0,1)，宽高基于锚框进行对数变换）。损失函数在偏移量尺度上计算预测值与真实值的均方误差，使训练更加稳定。这种设计将全局回归问题分解为多个局部简单回归任务，大大提高了检测精度和训练效率。

2026-04-04 09:59:34 824

原创 yolov3学习之训练原理

YOLOv3采用多任务损失函数设计，由边界框坐标损失、置信度损失和分类损失三部分加权组成。通过多尺度输出（52×52、26×26、13×13特征图）和正样本稀疏分配机制优化训练效果。训练策略包括混合精度训练、梯度累积等技巧。值得注意的是，叠加损失不会显著增加计算量，因为前向传播只需执行一次，反向传播时梯度在共享节点自动累加。虽然GPU显存需求略有增加（约10%），但训练速度差异通常小于5%。该设计在保持高效的同时，实现了精准的目标检测能力。

2026-04-04 09:57:49 240

原创 yolov3学习之官方基础模块及推理代码学习

YOLOv3网络结构分析摘要（149字）： YOLOv3官方实现将网络拆解为三个核心模块：Conv类实现CBL基础组件（卷积+BN+SiLU），Bottleneck类构建残差单元，Detect类处理预测头。其中Conv类通过autopad函数自动计算填充，保证特征图尺寸稳定；Bottleneck采用"压缩-处理"结构并支持可选残差连接，既用于主干网络又可适配Neck层。网络构建采用模块化设计，基础组件灵活组合形成Darknet-53主干和特征金字塔。特别注意的是，原LeakyReLU激活

2026-04-04 07:48:06 362

原创 yolov3学习之检测原理

YOLOv3检测原理摘要：YOLOv3采用3个尺度（13×13、26×26、52×52）的特征图检测不同大小物体，每个尺度对应3个通过K-means聚类得到的先验框（共9个）。模型预测时，每个网格基于先验框预测3个候选框（含位置偏移、置信度和类别概率），总计输出10647个候选框（13×13×3 + 26×26×3 + 52×52×3）。先验框作为基准模板，降低模型学习难度，但需与数据集物体形状匹配。不同数据集需重新聚类生成适配的先验框。最终输出经NMS筛选得到有效检测结果。

2026-04-04 07:46:35 267

原创 yolov3学习之源码代码路径及运行环境搭建

两个最经典、最适合学习的开源仓库。你可以直接复制下面的地址，在浏览器中打开或使用 git clone命令下载。

2026-04-03 11:05:57 694

原创 yolov3学习之全网最好网络结构图采集

YOLOv3核心架构解析：ResNet与FPN的巧妙融合摘要：YOLOv3通过融合ResNet残差连接和FPN多尺度特征，构建了高效的目标检测框架。其Backbone采用Darknet53替代ResNet，使用步长2卷积下采样并保留LeakyReLU激活；Neck部分通过自顶向下路径和横向连接实现特征融合，但用concat替代FPN的add操作。这种设计在保持多尺度检测优势的同时，提升了信息完整性和计算效率。建议学习路径：先掌握YOLOv3经典结构，再进阶到v5/v8等工业版本。网络结构可分为特征提取（B

2026-03-11 08:31:01 647

VideoPipe环境搭建及编译ubuntu240403

段式LCD驱动原理笔记v0.5

段式LCD驱动原理笔记v0.6

IAR下建立STM32f103zet6工程基于野火霸道开发板

空空如也