0yumiwawa0-CSDN博客

原创 TC-LLaVA论文笔记

理解LLM位置编码:RoPE | Linsight。

2024-09-09 14:31:55 1030

原创 MONA论文笔记

采用了多尺寸的 depthwise convolution 与 pointwise convolution 相结合的方式，

2024-08-26 14:16:50 859

原创 Transformer基础相关

注意力,多头注意力,自注意力及Pytorch实现

2024-08-14 16:32:05 119

生成器预测每一帧的重要性，并且删掉其中 25%最重要的帧，判别器希望抽帧后提取的特征与抽帧前相同。这是为了保证 key 尽量稳定，否则如果 key_encoder 变化太快的话，提取到的 feature 差异就会很大，再去比较 feature 是不是一致就没有意义了，因为网络都变了。本质是一个分类问题，希望同一张图片经过不同 augmentation 提取的特征能分到一类，不同的图片提取到的特征分到不同的类。把对比学习看成了一个分类问题，用当前图像上提取到的 feature。

2024-08-02 11:11:59 870

原创 InstanceDiffusion论文笔记

提出了一种可以由用户对每一个 instance 给出文本描述并指定位置的图像生成模型，其中位置描述可以是 bounding box，mask，point 或 scribble。简单来说就是仅在每个 instance 内部的区域进行 self attention，以防止信息泄露，比如 A 物体的颜色被传到 B 物体的 feature 里。Inference 期间，首先对单个物体去噪，执行一定步骤后，将所有 feature 求平均，然后执行全局去噪。用训练好的检测模型检测，评估检测框与给定框的 AP。

2024-07-26 14:15:48 1137

原创 Alpha CLIP论文笔记

ImageNet 数据库中的图片用 SAM 进行分割，把每个 mask 与图像标签用 CLIP 计算相似度，选择相似度高的 mask，并用 BLIP-2 给每个 mask 生成 caption（丰富 mask 的描述，否则 mask 对应的描述就只有一个标签）。部分图像处理任务需要关注图像的特定区域，比如：图像编辑，CLIP 算法无法处理这样的任务，Alpha-CLIP 希望可以弥补这个问题。在 GRIT 数据库的基础上，用 SAM 对每个 box 生成一个 mask。

2024-07-09 14:32:18 220

原创 RT-DETR论文笔记

因此，rt-detr 在 loss 里面加入了 vfl loss，希望经过这样的训练，类别概率高的 query，iou 也能比较高。由 C 到 D，性能提升的同时，小幅度减少了延迟，这说明不同 scale 的 feature 间的交互是必要的，但是不需要采用 multi scale encoder 的方式交互。这部分描述的是选择 query 的方式，这里在论文里的描述有点绕，但是结合代码和别人的博客，我认为这里的实现实际上采用的是在 loss 中加入一个 vfl loss 的方式。

2024-06-12 17:15:04 1056

原创 On Calibration of Modern Neural Networks论文笔记

上图里面左面两张图固定宽度的情况下，不同深度的 resnet 以及固定深度的情况下，不同宽度的 resnet 的实验结果。可以看到，增加模型深度/宽度，可以降低模型的错误率，但是模型预测概率与准确率之间的偏差会增大。读这篇文章是因为在实验中发现会有一些错的很离谱的 bad case，模型预测概率还非常高，所以希望看看之前在这方面有什么研究。这篇论文发现一些比较新的模型虽然在性能上有所提升，但是模型预测概率与准确率之间的偏差远远大于最早期的模型，论文里分析了这种现象产生的可能原因，并且罗列了一些缓解方法。

2024-05-22 10:51:48 313

原创 Deformable DETR论文笔记

Deformable DETR 提出了 deformable attention module 弥补了经典 attention 模块导致的训练收敛慢以及小物体上检测性能不佳的问题，并且在实验中证明了该模块达到了设计目的。缺陷是 inference 速度有所下降。

2024-05-09 18:05:34 968

原创 GLIP论文笔记

经典的目标检测方法在固定的类别上训练模型，当需要处理新的类别时，只能在新类别上收集数据重新训练。CLIP 方法通过引入图像文本对的方式，使模型可以利用文本中的类别信息，从而在没有见过的类别上有一定泛化性，但 CLIP 方法仅能应用于分类任务。本文提出的 GLIP 可以应用到检测任务。先用标注好的数据训练模型，然后用训练好的模型在未标注 bounding box 的数据上执行 grounding 任务生成伪标签，再把伪标签加入训练。采用 multi head attention 融合图像和文本信息。

2024-05-06 18:50:48 1013

原创 DINO论文笔记

的 crop，teacher model 仅接受 global view 的输入，student model 可以接受 global 和 local view 的输入。训练过程中，student model 的参数用 sgd 更新，teacher model 的参数由 student model 和 teacher model 的参数加权得到，DINO 的方法设计并不复杂，但是用 DINO 预训练得到的 feature map 与图像分割 mask 有很强的联系，这个性质比较有趣。

2024-04-29 19:26:29 824

翻译 Foundations of Machine Learning 内容整理 —— Introduction

Foundation of Machine Learning 内容整理 —— Introduction这是一只小白学习 machine learning 的笔记，发布的主要目的是督促自己不要偷懒，同时如果能帮到大家就更好啦~笔记内容为对 Foundation of Machine Learning 中我认为比较重要的内容的翻译，翻译尽量传达原文意思，但鉴于我是一只英语渣，欢迎大家在评论区批评指正

2017-05-22 15:35:34 3128

yumiwawa19960506的博客