武乐乐~-CSDN博客

原创强化学习入门：价值、回报、策略概念详解

本文只是介绍了一部分概念，后续会逐步添加新的概念，从感性上认识下RL的一些基础概念。

2025-06-14 21:59:50 1137

原创论文精读Lami-Detr：Open-Vocabulary Detection with Language Model Instruction

Lami-detr开源地址。本篇工作出发点是好的，发现clip的text embed不是太好的一个嵌入，之后借助GPT来生成概念丰富表达，并通过采样负类别来增强判别能力，同时保留了视觉相似特征，以便于保留模型发现新的类别能力。但感觉读起来还是晕晕乎乎的，行文有点儿迷。

2025-06-14 17:09:19 1066

原创论文精读F-VLM: Open-Vocabulary Object Detection Upon Frozen Vision and Language Models

F-VLM开源地址。由于论文偏早，因此精度可能不高，但至少是一篇将VLM尝试引入OVD任务的开山之作。

2025-06-14 11:00:14 1222

原创强化学习入门：交叉熵方法实现CartPole智能体

在本文中，我们简单介绍了交叉熵方法具体的训练流程，以及如何用交叉熵算法来实现CartPole智能体。下篇介绍Bellman方程，敬请期待。

2025-06-11 22:03:39 947

原创强化学习入门：交叉熵方法数学推导

本篇的公式比较多，我也有点儿懵逼，可以不用深入理解。下一篇将交叉熵方法用到CartPole智能体看看效果变得如何。

2025-06-08 21:44:37 993

原创强化学习入门：Gym实现CartPole随机智能体

如下图所示：CartPole游戏就是平衡木游戏：游戏中，智能体需要控制左或者右动作来维持平衡，当然，这个环境的观察是4个浮点数，包含了木棒质点的x坐标、速度、与平台的角度以及角速度的信息。由于目前还没有学习到RL算法，因此，本文首先借助Gym实现一个随机智能体。本篇只是用gym实现了一个简单的CartPole智能体，无须担心，后面博客会介绍用其余RL算法来逐渐改进这个智能体。

2025-06-05 21:58:00 432

原创论文精读CP-Detr: Concept Prompt Guide DETR Toward Stronger Universal Object Detection

期待开源…

2025-05-24 15:04:09 1024

原创强化学习入门：RL开发框架Gym简介

本篇主要从代码角度介绍了RL的一些基本组件，以及Gym的基类，后面会提供实际代码，从实战中才能掌握Gym框架。

2025-05-21 22:17:59 562

最近想开一个关于强化学习专栏，因为DeepSeek-R1很火，但本人对于LLM连门都没入。因此，只是记录一些类似的读书笔记，内容不深，大多数只是一些概念的东西，数学公式也不会太多，还望读者多多指教。马克西姆的《深度强化学习实践》。马尔科夫奖励过程总结下强化学习用到的术语：首先有状态空间S、状态概率转移矩阵、奖励、回报是奖励的期望，动作矩阵，策略则是动作的概率分布。最终希望得到一个聪明的智能体，让其能够学会选择好的策略，进而得到最大的回报。

2025-05-17 16:45:38 1068

原创论文精读OV-DINO：Unified Open-Vocabulary Detection with Language-Aware Selective Fusion

整体感觉还行。

2025-05-17 14:54:57 816

原创强化学习入门：马尔科夫奖励过程

最近想开一个关于强化学习专栏，因为DeepSeek-R1很火，但本人对于LLM连门都没入。因此，只是记录一些类似的读书笔记，内容不深，大多数只是一些概念的东西，数学公式也不会太多，还望读者多多指教。马克西姆的《深度强化学习实践》。本篇只是介绍下强化学习的回报和状态价值定义，让读者能从感性角度对其有个理解，下篇介绍在马尔科夫奖励过程中引入动作和策略。

2025-05-15 21:59:51 1091

原创论文精读：YOLO-UniOW: Efficient Universal Open-World Object Detection

Yolo-uniow开源地址。总体来说结合起来挺有意思，从另一个角度来解决open-world问题。

2025-05-13 22:15:32 1680

原创强化学习入门：马尔科夫过程

最近想开一个关于强化学习专栏，因为DeepSeek-R1很火，但本人对于LLM连门都没入。因此，只是记录一些类似的读书笔记，内容不深，大多数只是一些概念的东西，数学公式也不会太多，还望读者多多指教。马克西姆的《深度强化学习实践》。马尔可夫过程（Markov Process，MP），包含了：一组状态（S），系统可以处于任一状态。一个转移矩阵（T），通过转移概率定义了系统的动态。马尔科夫要求现在状态只和他的前一个状态有关。

2025-05-11 12:04:59 912

原创 YOLO-World：基于YOLOv8的开放词汇目标检测

本文介绍一篇来自腾讯的开放词汇检测工作，发表自CVPR2024，论文链接，开源地址。总之是一篇不错的轻量化OVD算法，算是挖了个新坑。每个模块其实都有值得探索改进的空间，包括后来的YOLOE ， YOLOUniOW等，后续会逐个介绍，包括这类算法的一些不足，敬请期待。

2025-05-11 11:20:43 1593

原创论文精读：YOLOE: Real-Time Seeing Anything

YOLOE；源码链接。整体来说是YOLO-World一篇拓展，使其支持各种Prompt方式，但训练stage很多，这点可能训练会不方便，另外，对于实际应用来说：应该是个不错的部署工作。

2025-05-10 15:52:55 1276

原创 python读写文件格式+torch前后处理图像代码

本篇博文分为两个部分，第一部分主要记录一些常见的文件读取操作，不定期更新扩充。第二部分提供一个在cv中常用的前后处理代码。这里只是提供一个样板，不过基本上已经包含大多数前处理流程，读者可自行更改一些参数来实现逆操作，另外，提供了cv中常用的图像前后处理代码。

2025-05-10 10:56:32 399

原创欢乐力扣：反转链表二+删除链表的倒数第n个节点+冒泡排序+快速排序

给你单链表的头指针 head 和两个整数 left 和 right ，其中 left <= right。请你反转从位置 left 到位置 right 的链表节点，返回反转后的链表。，基本思路是：首先将需要逆转的链表段切出来，然后反转，之后在接回去即可。（代码细节比较多，需要自己写才行）。

2025-04-13 11:40:55 510

原创欢乐力扣：合并两个有序链表+链表两数相加

将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。，简单来说就是不断调整链表指针的指向，让其指向两个链表中较小的节点。

2025-03-29 22:45:34 398

原创欢乐力扣：环形链表+反转链表

如果链表中有某个节点，可以通过连续跟踪 next 指针再次到达，则链表中存在环。为了表示给定链表中的环，评测系统内部使用整数 pos 来表示链表尾连接到链表中的位置（索引从 0 开始）。注意：pos 不作为参数进行传递。仅仅是为了标识链表的实际情况。用哈希表存储访问过的节点，若重复访问，则说明有环，返回True；如果链表中存在环，则返回 true。否则，返回 false。给你一个链表的头节点 head ，判断链表中是否有环。

2025-03-16 16:43:14 217

原创欢乐力扣：有效的括号+基本计算器

给定一个只包括 ‘(’，‘)’，‘{’，‘}’，‘[’，‘]’ 的字符串 s ，判断字符串是否有效。用栈，是左括号则压入栈，右括号的话则出栈比较是否匹配。若不匹配，则返回False。每个右括号都有一个对应的相同类型的左括号。左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。

2025-03-12 21:43:41 367

原创欢乐力扣：合并区间+汇总区间

以数组 intervals 表示若干个区间的集合，其中单个区间为 intervals[i] = [starti, endi]。请你合并所有重叠的区间，并返回一个不重叠的区间数组，该数组需恰好覆盖输入中的所有区间。先将intervals按照左端点进行升序排序，固定住左边，然后遍历不断更新右边的区间即可。

2025-03-09 16:04:35 290

原创欢乐力扣：存在重复元素二+最长连续序列

给你一个整数数组 nums 和一个整数 k ，判断数组中是否存在两个不同的索引 i 和 j ，满足 nums[i] == nums[j] 且 abs(i - j) <= k。如果存在，返回 true；否则，返回 false。借助哈希表，来不断的存储元素值以及下标，若当前元素已经在字典里，则取出对应下标与k进行比较；若不满足条件，则将当前遍历的元素的下标存入字典，覆盖掉原来的下标。暴力法，直接两层for循环，但会超时。

2025-02-26 21:21:09 541

原创欢乐力扣：字母异位词分组+快乐数

给你一个字符串数组，请你将字母异位词组合在一起。可以按任意顺序返回结果列表。字母异位词是由重新排列源单词的所有字母得到的一个新单词。将每个单词排序，并将排序后的单词作为key来存入字典。

2025-02-24 21:27:01 457

原创欢乐力扣：单词规律+有效的字母异位词

给定一种规律 pattern 和一个字符串 s ，判断 s 是否遵循相同的规律。这里的遵循指完全匹配，例如， pattern 里的每个字母和字符串 s 中的每个非空单词之间存在着双向连接的对应规律。读者可直接看代码，本质上就是构造两个哈希表来验证是否为互逆的映射。

2025-02-23 11:55:46 391

原创手撕FocalLoss

为了加深对Focal Loss理解，本文提供了一个简单的手写Demo。根据真实标签yyy的不同，Focal Loss 可以分为两种情况：1) 当真实标签y1y = 1y1FLp−α1−pγlog⁡pFLp−α1−pγlogp2) 当真实标签y0y = 0y0FLp−1−αpγ。

2025-02-22 11:38:02 1335

原创 QARepVGG--含demo实现

在上一篇博文RepVGG中，介绍了RepVGG网络。RepVGG 作为一种高效的重参数化网络，通过训练时的多分支结构（3x3卷积、1x1卷积、恒等映射）和推理时的单分支合并，在精度与速度间取得了优秀平衡。然而，其在低精度（如INT8）量化后常出现显著精度损失。本文将要介绍的QARepVGG（Make RepVGG Greater Again: A Quantization-aware Approach）的提出正是为了解决这一问题。欢迎留言交流讨论。

2025-02-22 11:02:35 664

原创 RepVGGBlock实现

在上一篇博文conv+bn算子融合中，介绍了conv+bn算子融合。本文将要介绍的RepVGG（Re-parameterized Convolutional Neural Network）是一种通过重新参数化技术将复杂的神经网络结构转换为简单的卷积层的方法。这种方法可以在训练时使用复杂的多分支结构，在推理时将其简化为单一的卷积层，从而显著提高推理速度。下一篇将介绍QARepVGG Block，来解决RepVGG Block量化int8掉点问题，敬请期待。

2025-02-19 21:45:58 1215

原创欢乐力扣：螺旋矩阵+矩阵置零+赎金信+同构字符串

给你一个 m 行 n 列的矩阵 matrix ，请按照顺时针螺旋顺序，返回矩阵中的所有元素。

2025-02-18 21:47:58 492

原创 conv+bn算子合并：原理、推导与实现

本文将详细介绍Conv+BN合并的原理、数学推导以及实现方法，并通过测试用例验证其正确性。通过将卷积层和批量归一化层合并为一个等效的卷积操作，我们可以在推理阶段减少计算量，从而提升模型的推理效率。本文详细介绍了合并的数学原理，并提供了一个完整的PyTorch实现和测试用例。希望本文能帮助读者更好地理解Conv+BN合并的原理和应用。

2025-02-16 15:19:11 1011

原创欢乐力扣：最小覆盖子串+旋转图像

emm…

2025-02-16 11:20:05 586

原创欢乐力扣11-15

15道了…

2025-01-04 17:47:37 617

原创欢乐力扣1-10

记录力扣Hot150的思路，为了加深理解，示例和题目是我自己表达的，而且代码随机贴，每次更新十大题目。

2024-12-21 15:55:15 1277

原创 TimeSFormer

因为视频类似NLP，每帧可视为word，而整个视频序列可视为一个句子。因此本文借助VIT用于解决视频分类任务。

2024-06-30 17:00:19 1199

原创 LDM论文解读

本文就是VQGAN和DDPM的结合。在图像的2D特征向量上做加噪去噪，从而降低DDPM在全像素空间上生成造成计算量大的问题。而且在隐变量上训练DDPM在一定程度上并不会损失生成的细节。

2024-06-30 16:56:09 1177

原创 VQGAN: Taming Transformers for High-Resolution Image Synthesis

本文类似VQVAE，区别在于引入了GAN的思想来强制codebook学到更逼真的图像成分表示，另外，自回归模型替换成了长序建模更强的Transformer来替代PixelCNN。（在codebook上进行自回归是因为Transformer计算代价大）。

2024-06-30 16:53:59 1060

原创 VQVAE：Neural Discrete Representation Learning

发表时间：NIPS2017作者及组织：Aaron van den Oord,Oriol Vinyals和Koray Kavukcuoglu, 来自DeepMind。

2024-06-30 16:51:29 1442

原创 End-to-End Multi-Person Pose Estimation with Transformers

本篇论文借鉴DeformableDetr的范式来回归人体2d姿态，有关DeformableDetr可参考：1）

2024-04-14 10:12:03 1176

原创 DETR Doesn’t Need Multi-Scale or Locality Design

自Detr以来，后续paper的改进的方向：主要是将归纳偏置重新又引入进Detr结构，比如DINO，ConditionDetr，HybridMatch等。但这与Detr原始简洁的结构设计背道而驰。于是本篇工作旨在保持Detr简洁结构设计上，提高其精度。关于DETR相关内容可参考：1）Detr2）3）4）DAB-DETR5）DN-DETR6）DINO。

2024-03-13 22:18:41 1229

原创 ConvNeXt V2：用MAE训练CNN

ConvNextV2是借助MAE的思想来训练ConvnextV1。

2024-02-26 21:31:14 1992

原创 A ConvNet for the 2020s

发表时间：CVPR2022code链接：作者及组织： Zhuang Liu，Hanzi Mao来自Meta和UC Berkeley。一句话总结：仿照swin-T思想，重新设计ResNet结构，使其逼近并超过swin-T。

2024-01-31 18:40:07 573

glove_300d词向量

陈云_小浣熊目标检测数据集

空空如也