- 博客(23)
- 问答 (2)
- 收藏
- 关注
原创 深入浅出了解生成模型-2:VAE模型原理以及代码实战
本文介绍了变分自编码器(VAE)的基本原理及其与自编码器(AE)的区别。AE通过编码器将输入数据压缩到低维空间,再通过解码器重建数据,而VAE则引入了概率模型,将输入映射为概率分布,适合生成任务。VAE通过学习数据的潜在分布,能够生成类似真实数据的新样本。文章详细描述了VAE的数学框架,包括编码器、解码器以及损失函数的构建,特别是通过变分下界(ELBO)来优化模型参数。VAE的核心思想是通过学习数据的分布特征,生成新的数据样本,尤其适用于图像生成任务。
2025-05-18 21:18:13
755
原创 深入浅出了解生成模型-1:GAN模型原理以及代码实战
生成对抗网络(GAN)是一种重要的生成模型,广泛应用于图像生成等领域。GAN由生成器(G)和判别器(D)组成,生成器负责生成数据,判别器则判断数据是来自真实分布还是生成器。两者通过对抗训练不断优化,生成器试图生成更逼真的数据,判别器则努力区分真假数据。GAN的核心思想是通过最小化生成器和判别器之间的对抗损失函数,使得生成的数据分布逐渐接近真实数据分布。训练过程分为两个阶段:首先优化判别器,然后优化生成器。
2025-05-11 12:57:54
583
1
原创 CV中常用Backbone-2:ConvNeXt模型详解
提到的论文中可能在学术上可以提供的参考意义不大,毕竟都是拿来主义,先不管他为什么这样只要能够起到好的作用那他就是好的模型(🤪🤪🤪🤪🤪),另外一点值得注意的是在convNeXt论文出发点是:通过实验来证明Vit效果好的原因不是因为attention本身,而是因为transform的超大感受野和各种trick(我在卷积上使用Vit的操作,结果也可以实现这个效果,卷积不输你Vit!
2025-05-01 14:35:28
940
原创 Qwen多模态系列论文
使用一个中间版本的 Qwen2.5-VL 模型,对带有标注(ground truth)的数据集生成响应,将模型生成的响应与标注的正确答案进行比较,只保留模型输出与正确答案匹配的样本,丢弃不匹配的样本。在Qwen2-VL中,时间方向每帧之间固定间隔 1 ,没有考虑到视频的采样率,例如四秒的视频每秒采样两帧和一秒的视频每秒采样八帧,这样总的帧数都是8,在原来这种编码方式中时间维度的编码都是1->8没有任何区别。对于数学、代码以外的任务,似乎没有特别好的规则定义方法,还是要回到基于奖励模型或者偏好数据的方法。
2025-04-29 21:10:23
1031
原创 多视觉编码器协同与高低分辨率特征融合技术综述
本文主要介绍(论文发表时间:24.03-25.01)在多模态中使用**多个视觉编码器如何进行特征融合操作**
2025-04-27 22:54:16
975
原创 强化学习框架:OpenRLHF源码解读,模型处理
本文主要介绍了在OpenRLHF中模型框架设计,主要分为3类模型:1、;2、;3、这三类模型中分别起到作用:1、直接更具prompt输出response;2、输出token的评分(3、返回整句输出评分(找出最后一个有效 token 的索引,然后从 value 向量中提取该位置的值作为 reward。
2025-04-22 22:36:37
749
原创 Python进阶知识:多进程/多线程/装饰器
多进程:指在同一个程序中同时运行多个独立的进程。每个进程都有自己的内存空间和资源,互不干扰。常用在CPU密集型任务中。比如说:比如你打开了多个浏览器窗口,每个窗口就是一个独立的进程,互不影响。即使一个窗口崩溃,其他窗口也不会受到影响。多线程:指在同一个进程内同时运行多个线程,多个线程共享同一块内存空间。适合I/O密集型任务(主要涉及到输入输出操作的任务。这些任务的执行时间主要花费在等待IO操作的完成上),线程之间的切换比进程更轻便。比如说:你在看视频的同时,后台也在下载文件。
2025-03-25 23:03:33
755
原创 数据蒸馏(Data Distillation)基本原理
同步更新:https://www.big-yellow-j.top/posts/2025/03/10/Data-Distillation.html主要介绍数据蒸馏操作,并且介绍CVPR-2025上海交大满分论文:Dataset Distillation with Neural Characteristic Function: A Minmax Perspective。本文主要是借鉴论文1中的整体结构,大致了解什么是DD而后再去介绍(CVPR-2025)论文。
2025-03-13 09:25:43
673
原创 Kimi论文——Muon优化器
众所周知,目前主流应用的优化器是AdamW,不过一个新的优化器(仅仅发布在Github上)似乎比 AdamW优化器能够实现更加优异的效果,于此同时Kimi也出了一篇新的就是使用优化器,有必要了解一些这个优化器以及测试一下这个优化器效果。
2025-03-04 17:51:05
959
原创 深度学习基础理论————位置编码原理及其代码
随之而来,使用绝对位置编码存在一个缺陷(以第一种为例):每个token的位置编码都是固定的,这意味着每个词的位置信息是独立的,无法灵活地体现不同“单词”之间的相对距离。每一层的自注意力机制会结合相对位置编码,进而增强模型的上下文理解能力,尤其在处理长序列时,Transformer-XL 可以显著减少计算开销,并提高模型对长距离依赖的建模能力。论文中给出的算法例子如上图所示。位置编码用于在输入序列中标记每个单词或标记的位置,这有助于模型理解输入序列中各个部分的相对位置,从而更好地捕捉序列中的长距离依赖关系。
2025-03-03 09:39:44
806
原创 Word Embedding原理以及代码实现
将文本处理为计算机可以理解的数字表示。一种最简单的表示就是直接用one-hot,我建立一个字典,然后对每个字符都进行编码比如说:你好(表示为:10,01)。,比如说对于文本:喜欢和爱这两个词可能会被编码成:1000和0100,但是从语义上这两个词所表达的含义应该是相似的,但是用one-hot编码无法表示这种关系。
2025-03-03 09:34:10
1106
原创 贝叶斯优化原理及代码实现
问题一:如果存在函数yx2y=x^2yx2那么对于这个函数很容易就可以得到他的最小值x0x=0x0时取到最小值,但是如果只告诉我们存在函数yfxy=f(x)yfxfxf(x)fx具体的表达式未知),我们如何找到他的最小值呢?问题二:对于机器学习、深度学习模型都是由许多参数所决定的(比如说:深度学习中学习率、网络深度等),假如我们通过计算模型的R2R^2R2来选择我们的参数,那么如何选择参数的值使得R2R^2R2最大呢?
2025-03-02 22:45:17
443
原创 深度学习常用的Attention操作(MHA/Casual Attention)以及内存优化管理(Flash Attention/Page Attention)
比如说按照上面Prompt要输出(假设只输出这些内容):“fathers brought a car”,一般的套路可能是:比如说:“Four score and seven years ago our xxxxx”(xxx代表预留空间)因为实际不知道到底要输出多少文本,因此会提前预留很长的一部分空间(但是如果只输出4个字符,这预留空间就被浪费了),因此在。因此,当计算每个位置的注意力时,键(key)和值(value)的位置会被限制在当前的位置及其之前的位置。是键(Key)和查询(Query)的维度。
2025-03-02 20:56:03
1076
原创 深度学习基础理论————分布式训练(模型并行/数据并行/流水线并行/张量并行)
主要介绍Pytorch分布式训练代码以及原理以及一些简易的Demo代码是指将一个模型的不同部分(如层或子模块)分配到不同的设备上运行。它通常用于非常大的模型,这些模型无法完整地放入单个设备的内存中。在模型并行中,数据会顺序通过各个层,即一层处理完所有数据之后再传递给下一层。这意味着,在任何时刻,只有当前正在处理的数据位于相应的设备上。是一种特殊的模型并行形式,它不仅拆分模型的不同层,还将输入数据流分为多个微批次(micro-batches)。这样可以实现多批次数据的同时处理,提高了设备利用率和训练效率。
2025-03-02 20:25:34
992
原创 机器学习基础原理————集成学习算法
传统机器学习算法 (例如:决策树,人工神经网络,支持向量机,朴素贝叶斯等) 都是通过(weak learners)来对目标进行预测(分类)。但是,以决策树算法为例,决策树算法在递归过程中,可能会过度分割样本空间,最终导致过拟合。集成学习 (Ensemble Learning) 算法的基本思想就是将多个弱学习机组合,从而实现一个预测效果更好的集成学习机。集成学习在以及上相较之弱学习机有较大改善。Bagging和Boosting代表训练过程;代表Boosting更新权重得到的权重训练集;代表结合策略;
2025-03-02 20:24:49
787
原创 深度学习基础理论————常见评价指标以及Loss Function
*主要用于处理样本失衡问题(样本里面标签不平衡问题,比如说目标识别,可能会得到很多框,但是可能只要一个框是所需的),其原理也很简单可以直接在原交叉熵基础上补充一个。用于回归任务的损失函数,它结合了均方误差(MSE)和绝对误差(MAE)的优点,可以减少对异常值(outliers)的敏感性,同时保持较好的梯度性质。交叉熵损失用于分类任务,它度量的是预测概率分布与真实标签分布之间的差异。的匹配规则,原理比较简单,就是比较译文和参考译文之间n组词的相似的一个占比。的值会迅速减小,从而降低易分类样本的损失值。
2025-03-02 20:24:06
966
原创 深度学习训练加速(单/半/混合精度训练)以及显存优化(gradient-checkpoint)理论
下图展示了 SSD 模型在训练过程中,激活函数梯度的分布情况,容易发现部分梯度值如果用FP16容易导致最后的梯度值变为0,这样就会导致上面提到的溢出问题,那么论文里面的做法就是:在反向传播前将loss增打。)指的是同时使用 FP16/BF16 和 FP32,利用二者的优点。也会导致溢出问题,梯度计算使用FP16,但在权重更新之前,梯度会转换为 FP32 精度进行累积和存储,从而避免因溢出导致的权重更新错误。:“几乎FP16”混合精度训练,不存在黑白名单,除了Batch norm,几乎都是用FP16计算。
2025-03-02 20:23:02
1449
原创 CV中常用Backbone(Resnet/Unet/Vit系列/多模态系列等)以及代码
可以简单理解:比如说一个512x512图像,最开始用卷积核(假设为3x3)去“扫”,那么这个卷积核就会把其“扫”的内容“汇总”起来,比如说某一个值是汇聚了他周围其他的值,这样一来。
2025-03-02 20:18:05
1383
原创 Docunmen AI 中图像高分辨率处理思路汇总
论文通过3步处理高分辨率图像:1、Divide:将图像切割为4部分(切割过多的patch会破坏目标完整性),然后计算每个部分之间的相似性,通过设定阈值来对形似部分通过。,处理为2类(根据相似的token的数量来确定那些是必要的那些是非必要的),而后通过计算这两类之间的余弦相似度将非必要的token aggregate到必要的token中。直接对横平竖直去除冗余的像素(比如文本中大量的空白,直接通过将图片梯度转化(黑白),然后分别将水平/竖直方向上的“没有元素”内容进行连接然后继续去除,可以。
2025-03-02 20:16:14
726
原创 Kimi/DeepSeek最新论文MoBA与NSA阅读
从思路上MoBA和NSA都有一个相通的点,对于稀疏注意力实现,都是通过“筛选”操作,但是“注意力筛选”势必要用到QKTQK^TQKT计算,因此两者都有一个有意思点,都会用一个小的替换大的先分块再去压缩处理。
2025-03-02 20:14:44
668
原创 CV-MultiModal特征融合技术汇总
(当然有些可能还需要考虑如何将图像进行压缩,这里主要是考虑有些图像的分辨率比较高),因此主要介绍在数据模型中如何对不同模态信息对齐的操作。
2025-03-02 20:13:22
737
空空如也
python在绘制图像时候,x轴的坐标未能显示
2020-04-15
用chrome 出现这个问题是为什么??
2020-04-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人