Big-Yellow-J-CSDN博客

原创深入浅出了解生成模型-2：VAE模型原理以及代码实战

本文介绍了变分自编码器（VAE）的基本原理及其与自编码器（AE）的区别。AE通过编码器将输入数据压缩到低维空间，再通过解码器重建数据，而VAE则引入了概率模型，将输入映射为概率分布，适合生成任务。VAE通过学习数据的潜在分布，能够生成类似真实数据的新样本。文章详细描述了VAE的数学框架，包括编码器、解码器以及损失函数的构建，特别是通过变分下界（ELBO）来优化模型参数。VAE的核心思想是通过学习数据的分布特征，生成新的数据样本，尤其适用于图像生成任务。

2025-05-18 21:18:13 755

原创深入浅出了解生成模型-1：GAN模型原理以及代码实战

生成对抗网络（GAN）是一种重要的生成模型，广泛应用于图像生成等领域。GAN由生成器（G）和判别器（D）组成，生成器负责生成数据，判别器则判断数据是来自真实分布还是生成器。两者通过对抗训练不断优化，生成器试图生成更逼真的数据，判别器则努力区分真假数据。GAN的核心思想是通过最小化生成器和判别器之间的对抗损失函数，使得生成的数据分布逐渐接近真实数据分布。训练过程分为两个阶段：首先优化判别器，然后优化生成器。

2025-05-11 12:57:54 583 1

原创 CV中常用Backbone-2：ConvNeXt模型详解

提到的论文中可能在学术上可以提供的参考意义不大，毕竟都是拿来主义，先不管他为什么这样只要能够起到好的作用那他就是好的模型（🤪🤪🤪🤪🤪），另外一点值得注意的是在convNeXt论文出发点是：通过实验来证明Vit效果好的原因不是因为attention本身，而是因为transform的超大感受野和各种trick（我在卷积上使用Vit的操作，结果也可以实现这个效果，卷积不输你Vit！

2025-05-01 14:35:28 940

原创 Qwen多模态系列论文

使用一个中间版本的 Qwen2.5-VL 模型，对带有标注（ground truth）的数据集生成响应，将模型生成的响应与标注的正确答案进行比较，只保留模型输出与正确答案匹配的样本，丢弃不匹配的样本。在Qwen2-VL中，时间方向每帧之间固定间隔 1 ，没有考虑到视频的采样率，例如四秒的视频每秒采样两帧和一秒的视频每秒采样八帧，这样总的帧数都是8，在原来这种编码方式中时间维度的编码都是1->8没有任何区别。对于数学、代码以外的任务，似乎没有特别好的规则定义方法，还是要回到基于奖励模型或者偏好数据的方法。

2025-04-29 21:10:23 1031

原创多视觉编码器协同与高低分辨率特征融合技术综述

本文主要介绍（论文发表时间：24.03-25.01）在多模态中使用**多个视觉编码器如何进行特征融合操作**

2025-04-27 22:54:16 975

原创强化学习框架：OpenRLHF源码解读，模型处理

本文主要介绍了在OpenRLHF中模型框架设计，主要分为3类模型：1、；2、；3、这三类模型中分别起到作用：1、直接更具prompt输出response；2、输出token的评分（3、返回整句输出评分（找出最后一个有效 token 的索引，然后从 value 向量中提取该位置的值作为 reward。

2025-04-22 22:36:37 749

原创 Python进阶知识：多进程/多线程/装饰器

多进程：指在同一个程序中同时运行多个独立的进程。每个进程都有自己的内存空间和资源，互不干扰。常用在CPU密集型任务中。比如说：比如你打开了多个浏览器窗口，每个窗口就是一个独立的进程，互不影响。即使一个窗口崩溃，其他窗口也不会受到影响。多线程：指在同一个进程内同时运行多个线程，多个线程共享同一块内存空间。适合I/O密集型任务（主要涉及到输入输出操作的任务。这些任务的执行时间主要花费在等待IO操作的完成上），线程之间的切换比进程更轻便。比如说：你在看视频的同时，后台也在下载文件。

2025-03-25 23:03:33 755

原创数据蒸馏（Data Distillation）基本原理

同步更新：https://www.big-yellow-j.top/posts/2025/03/10/Data-Distillation.html主要介绍数据蒸馏操作，并且介绍CVPR-2025上海交大满分论文：Dataset Distillation with Neural Characteristic Function: A Minmax Perspective。本文主要是借鉴论文1中的整体结构，大致了解什么是DD而后再去介绍（CVPR-2025）论文。

2025-03-13 09:25:43 673

原创 Kimi论文——Muon优化器

众所周知，目前主流应用的优化器是AdamW，不过一个新的优化器（仅仅发布在Github上）似乎比 AdamW优化器能够实现更加优异的效果，于此同时Kimi也出了一篇新的就是使用优化器，有必要了解一些这个优化器以及测试一下这个优化器效果。

2025-03-04 17:51:05 959

原创混合专家模型（MoE）/KV-cache

主要介绍（MoE）、KV cache并且结合代码进行解释。

2025-03-03 09:43:06 625

原创深度学习基础理论————位置编码原理及其代码

随之而来，使用绝对位置编码存在一个缺陷（以第一种为例）：每个token的位置编码都是固定的，这意味着每个词的位置信息是独立的，无法灵活地体现不同“单词”之间的相对距离。每一层的自注意力机制会结合相对位置编码，进而增强模型的上下文理解能力，尤其在处理长序列时，Transformer-XL 可以显著减少计算开销，并提高模型对长距离依赖的建模能力。论文中给出的算法例子如上图所示。位置编码用于在输入序列中标记每个单词或标记的位置，这有助于模型理解输入序列中各个部分的相对位置，从而更好地捕捉序列中的长距离依赖关系。

2025-03-03 09:39:44 806

原创 Word Embedding原理以及代码实现

将文本处理为计算机可以理解的数字表示。一种最简单的表示就是直接用one-hot，我建立一个字典，然后对每个字符都进行编码比如说：你好（表示为：10，01）。，比如说对于文本：喜欢和爱这两个词可能会被编码成：1000和0100，但是从语义上这两个词所表达的含义应该是相似的，但是用one-hot编码无法表示这种关系。

2025-03-03 09:34:10 1106

原创贝叶斯优化原理及代码实现

问题一：如果存在函数yx2y=x^2yx2那么对于这个函数很容易就可以得到他的最小值x0x=0x0时取到最小值，但是如果只告诉我们存在函数yfxy=f(x)yfxfxf(x)fx具体的表达式未知），我们如何找到他的最小值呢？问题二：对于机器学习、深度学习模型都是由许多参数所决定的（比如说：深度学习中学习率、网络深度等），假如我们通过计算模型的R2R^2R2来选择我们的参数，那么如何选择参数的值使得R2R^2R2最大呢？

2025-03-02 22:45:17 443

原创深度学习常用的Attention操作（MHA/Casual Attention）以及内存优化管理(Flash Attention/Page Attention)

比如说按照上面Prompt要输出（假设只输出这些内容）：“fathers brought a car”，一般的套路可能是：比如说：“Four score and seven years ago our xxxxx”（xxx代表预留空间）因为实际不知道到底要输出多少文本，因此会提前预留很长的一部分空间（但是如果只输出4个字符，这预留空间就被浪费了），因此在。因此，当计算每个位置的注意力时，键（key）和值（value）的位置会被限制在当前的位置及其之前的位置。是键（Key）和查询（Query）的维度。

2025-03-02 20:56:03 1076

原创深度学习基础理论————分布式训练（模型并行/数据并行/流水线并行/张量并行）

主要介绍Pytorch分布式训练代码以及原理以及一些简易的Demo代码是指将一个模型的不同部分（如层或子模块）分配到不同的设备上运行。它通常用于非常大的模型，这些模型无法完整地放入单个设备的内存中。在模型并行中，数据会顺序通过各个层，即一层处理完所有数据之后再传递给下一层。这意味着，在任何时刻，只有当前正在处理的数据位于相应的设备上。是一种特殊的模型并行形式，它不仅拆分模型的不同层，还将输入数据流分为多个微批次（micro-batches）。这样可以实现多批次数据的同时处理，提高了设备利用率和训练效率。

2025-03-02 20:25:34 992

原创机器学习基础原理————集成学习算法

传统机器学习算法 (例如：决策树，人工神经网络，支持向量机，朴素贝叶斯等) 都是通过（weak learners）来对目标进行预测（分类）。但是，以决策树算法为例，决策树算法在递归过程中，可能会过度分割样本空间，最终导致过拟合。集成学习 (Ensemble Learning) 算法的基本思想就是将多个弱学习机组合，从而实现一个预测效果更好的集成学习机。集成学习在以及上相较之弱学习机有较大改善。Bagging和Boosting代表训练过程；代表Boosting更新权重得到的权重训练集；代表结合策略；

2025-03-02 20:24:49 787

原创深度学习基础理论————常见评价指标以及Loss Function

*主要用于处理样本失衡问题（样本里面标签不平衡问题，比如说目标识别，可能会得到很多框，但是可能只要一个框是所需的），其原理也很简单可以直接在原交叉熵基础上补充一个。用于回归任务的损失函数，它结合了均方误差（MSE）和绝对误差（MAE）的优点，可以减少对异常值（outliers）的敏感性，同时保持较好的梯度性质。交叉熵损失用于分类任务，它度量的是预测概率分布与真实标签分布之间的差异。的匹配规则，原理比较简单，就是比较译文和参考译文之间n组词的相似的一个占比。的值会迅速减小，从而降低易分类样本的损失值。

2025-03-02 20:24:06 966

原创深度学习训练加速（单/半/混合精度训练）以及显存优化（gradient-checkpoint）理论

下图展示了 SSD 模型在训练过程中，激活函数梯度的分布情况，容易发现部分梯度值如果用FP16容易导致最后的梯度值变为0，这样就会导致上面提到的溢出问题，那么论文里面的做法就是：在反向传播前将loss增打。）指的是同时使用 FP16/BF16 和 FP32，利用二者的优点。也会导致溢出问题，梯度计算使用FP16，但在权重更新之前，梯度会转换为 FP32 精度进行累积和存储，从而避免因溢出导致的权重更新错误。：“几乎FP16”混合精度训练，不存在黑白名单，除了Batch norm，几乎都是用FP16计算。

2025-03-02 20:23:02 1449

个人Blog