自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 TC-LLaVA论文笔记

理解LLM位置编码:RoPE | Linsight。

2024-09-09 14:31:55 1030

原创 MONA论文笔记

采用了多尺寸的 depthwise convolution 与 pointwise convolution 相结合的方式,

2024-08-26 14:16:50 859

原创 cv各领域进展

截止到2023年的进展

2024-08-14 17:22:54 314

原创 Transformer基础相关

注意力,多头注意力,自注意力及Pytorch实现

2024-08-14 16:32:05 119

原创 VideoMoCo论文笔记

生成器预测每一帧的重要性,并且删掉其中 25%最重要的帧,判别器希望抽帧后提取的特征与抽帧前相同。这是为了保证 key 尽量稳定,否则如果 key_encoder 变化太快的话,提取到的 feature 差异就会很大,再去比较 feature 是不是一致就没有意义了,因为网络都变了。本质是一个分类问题,希望同一张图片经过不同 augmentation 提取的特征能分到一类,不同的图片提取到的特征分到不同的类。把对比学习看成了一个分类问题,用当前图像上提取到的 feature。

2024-08-02 11:11:59 870

原创 InstanceDiffusion论文笔记

提出了一种可以由用户对每一个 instance 给出文本描述并指定位置的图像生成模型,其中位置描述可以是 bounding box,mask,point 或 scribble。简单来说就是仅在每个 instance 内部的区域进行 self attention,以防止信息泄露,比如 A 物体的颜色被传到 B 物体的 feature 里。Inference 期间,首先对单个物体去噪,执行一定步骤后,将所有 feature 求平均,然后执行全局去噪。用训练好的检测模型检测,评估检测框与给定框的 AP。

2024-07-26 14:15:48 1137

原创 Alpha CLIP论文笔记

ImageNet 数据库中的图片用 SAM 进行分割,把每个 mask 与图像标签用 CLIP 计算相似度,选择相似度高的 mask,并用 BLIP-2 给每个 mask 生成 caption(丰富 mask 的描述,否则 mask 对应的描述就只有一个标签)。部分图像处理任务需要关注图像的特定区域,比如:图像编辑,CLIP 算法无法处理这样的任务,Alpha-CLIP 希望可以弥补这个问题。在 GRIT 数据库的基础上,用 SAM 对每个 box 生成一个 mask。

2024-07-09 14:32:18 220

原创 RT-DETR论文笔记

因此,rt-detr 在 loss 里面加入了 vfl loss,希望经过这样的训练,类别概率高的 query,iou 也能比较高。由 C 到 D,性能提升的同时,小幅度减少了延迟,这说明不同 scale 的 feature 间的交互是必要的,但是不需要采用 multi scale encoder 的方式交互。这部分描述的是选择 query 的方式,这里在论文里的描述有点绕,但是结合代码和别人的博客,我认为这里的实现实际上采用的是在 loss 中加入一个 vfl loss 的方式。

2024-06-12 17:15:04 1056

原创 On Calibration of Modern Neural Networks论文笔记

上图里面左面两张图固定宽度的情况下,不同深度的 resnet 以及固定深度的情况下,不同宽度的 resnet 的实验结果。可以看到,增加模型深度/宽度,可以降低模型的错误率,但是模型预测概率与准确率之间的偏差会增大。读这篇文章是因为在实验中发现会有一些错的很离谱的 bad case,模型预测概率还非常高,所以希望看看之前在这方面有什么研究。这篇论文发现一些比较新的模型虽然在性能上有所提升,但是模型预测概率与准确率之间的偏差远远大于最早期的模型,论文里分析了这种现象产生的可能原因,并且罗列了一些缓解方法。

2024-05-22 10:51:48 313

原创 Deformable DETR论文笔记

Deformable DETR 提出了 deformable attention module 弥补了经典 attention 模块导致的训练收敛慢以及小物体上检测性能不佳的问题,并且在实验中证明了该模块达到了设计目的。缺陷是 inference 速度有所下降。

2024-05-09 18:05:34 968

原创 GLIP论文笔记

经典的目标检测方法在固定的类别上训练模型,当需要处理新的类别时,只能在新类别上收集数据重新训练。CLIP 方法通过引入图像文本对的方式,使模型可以利用文本中的类别信息,从而在没有见过的类别上有一定泛化性,但 CLIP 方法仅能应用于分类任务。本文提出的 GLIP 可以应用到检测任务。先用标注好的数据训练模型,然后用训练好的模型在未标注 bounding box 的数据上执行 grounding 任务生成伪标签,再把伪标签加入训练。采用 multi head attention 融合图像和文本信息。

2024-05-06 18:50:48 1013

原创 DINO论文笔记

的 crop,teacher model 仅接受 global view 的输入,student model 可以接受 global 和 local view 的输入。训练过程中,student model 的参数用 sgd 更新,teacher model 的参数由 student model 和 teacher model 的参数加权得到,DINO 的方法设计并不复杂,但是用 DINO 预训练得到的 feature map 与图像分割 mask 有很强的联系,这个性质比较有趣。

2024-04-29 19:26:29 824

翻译 Foundations of Machine Learning 内容整理 —— Introduction

Foundation of Machine Learning 内容整理 —— Introduction这是一只小白学习 machine learning 的笔记,发布的主要目的是督促自己不要偷懒,同时如果能帮到大家就更好啦~笔记内容为对 Foundation of Machine Learning 中我认为比较重要的内容的翻译,翻译尽量传达原文意思,但鉴于我是一只英语渣,欢迎大家在评论区批评指正

2017-05-22 15:35:34 3128

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除