论文
文章平均质量分 67
じんじん
这个作者很懒,什么都没留下…
展开
-
论文阅读——Unified Generative Adversarial Networks for Controllable Image-to-Image Translation
我们将来自源域的输入条件图像x和来自目标域的可控结构Cy输入到生成器G中并合成目标图像y = G(x, Cy) 这样,GT可控结构Cy提供了更强的监督和结构信息来指导深层网络中图像到图像的转换,而条件图像x提供了外观信息以产生最终结果y。这种新颖的损失可以提高我们实验部分的图像质量。定性和定量结果表明,在具有四个数据集的两个具有挑战性的可控图像翻译任务(即手势到手势翻译和跨视图图像翻译)上,所提出的 GAN 模型相对于最先进的方法具有优越性。在可控结构Cy的引导下,我们的生成器可以产生相应的图像y。原创 2024-05-05 20:50:55 · 470 阅读 · 2 评论 -
论文阅读——MVDiffusion
原创 2024-04-06 10:25:58 · 790 阅读 · 0 评论 -
论文阅读——Sat2Vid
原创 2024-04-06 08:48:46 · 1006 阅读 · 0 评论 -
论文阅读——SpectralGPT
原创 2024-03-17 15:10:06 · 542 阅读 · 0 评论 -
论文阅读——EarthPT
原创 2024-03-17 14:41:05 · 398 阅读 · 0 评论 -
论文阅读——RSGPT
原创 2024-03-17 11:09:35 · 1363 阅读 · 0 评论 -
论文阅读——Rein
原创 2024-03-16 21:52:38 · 1256 阅读 · 0 评论 -
论文阅读——MoCo
原创 2024-03-16 19:02:34 · 706 阅读 · 0 评论 -
论文阅读——GeoChat(cvpr2024)
原创 2024-03-16 16:25:23 · 1719 阅读 · 0 评论 -
Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering(2017)
(一组完全正交的特征向量),known as the graph Fourier modes, and their associated ordered real nonnegative eigenvalues。(这个D也就是每个点有几条边,加权)(相关的有序实非负特征值),原创 2024-03-14 19:57:24 · 730 阅读 · 0 评论 -
论文阅读——RingMo
原创 2024-03-14 17:28:19 · 698 阅读 · 1 评论 -
论文阅读——Align before Fuse
原创 2024-03-14 16:44:01 · 627 阅读 · 0 评论 -
论文阅读——BLIP
原创 2024-03-14 12:27:37 · 1149 阅读 · 0 评论 -
论文阅读——Vision Transformer with Deformable Attention
原创 2024-03-13 18:41:18 · 1208 阅读 · 0 评论 -
论文阅读——RemoteCLIP
原创 2024-03-13 15:11:57 · 1032 阅读 · 0 评论 -
论文阅读——ViTAE
原创 2024-03-13 13:43:54 · 1060 阅读 · 0 评论 -
论文阅读——VSA
原创 2024-03-13 12:12:17 · 695 阅读 · 0 评论 -
论文阅读——Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model
原创 2024-03-13 11:46:57 · 476 阅读 · 0 评论 -
sora技术报告阅读
patches是在不同类型的视频和图像上训练生成模型的高度可扩展和有效的表示。在推理时,可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。Sora可以对宽屏幕1920x1080p视频、垂直1080x1920视频以及其间的所有视频进行采样,因此可以直接按照不同设备的固有纵横比为其创建内容。Sora是一个通用的视觉数据模型,它可以生成不同持续时间、宽高比和分辨率的视频和图像,最高可达一分钟的高清视频。使用原始分辨率效果更好。相比裁剪过的视频训练,原始视频训练的sora有了更好的取景效果。原创 2024-02-29 22:31:39 · 321 阅读 · 0 评论 -
论文阅读——SimpleClick
迭代点击模拟策略生成的点是有顺序的,后一次点击应该在前次点击生成的掩码错误的区域,更像人类点击。2、结合前次交互得到的掩码作为额外输入,提高分割质量,以及根据现有的分割掩码refine.受到RITM启发,使用随机和迭代的点击模拟策略结合。损失函数:normalized focal loss。1、在当前分割自动模拟点击,没有人为提供的点击。用VIT MAE方法训练的预训练权重。模型直接在VIT上增加交互是分割。随机点击生成的点不考虑顺序,原创 2024-02-23 19:59:37 · 708 阅读 · 0 评论 -
论文阅读——ONE-PEACE
Vision Adapter:使用hierarchical MLP (hMLP) stem对图像分块,直到patch size 16 × 16,不同块之间没有交互。Language Adapter (L-Adapter):先变成subword sequence-->加上[CLS] and [EOS]-->embeddings-->absolute positional embeddings-->Audio Adapter (A-Adapter):16kHz采样,归一化数据,使用卷积提取相对特征。原创 2024-02-20 20:14:06 · 747 阅读 · 0 评论 -
论文阅读——SqueezeSAM
训练时每个图片随机选8个masks,改变了点击送入模型的方式,原始sam模型训练时每个批次点击一次得到一个点击样本,然后模型再运行,因此一个批次运行了很多步,增加了训练时间,因此本文模型简单的一个批次收集一些点,然后训练一步。对于用户点击和框,单独作为通道,前融合和后融合(sam只有后融合)。使用BatchNorm而不是LayerNorm节省计算;比SAM更小,更快。原创 2024-02-20 20:11:52 · 512 阅读 · 0 评论 -
论文阅读——MP-Former
去噪训练的关键思想是将带噪声的GT坐标与可学习查询并行地送到Transformer解码器中,并训练模型去噪和恢复GT边框坐标。MPFormer去噪训练的思想从DN-DETR来,改进的mask2former模型。MPformer送入class embeddings作为查询,给每层解码层送入GT masks作为attention masks,然后让模型重建类别和masks。作者把mask2former看做一个掩码不断精细化的过程,一层的预测作为下一层的attention masks。原创 2024-02-05 22:50:51 · 951 阅读 · 0 评论 -
论文阅读——Reviving Iterative Training with Mask Guidance for Interactive Segmentation
交互式分割原创 2024-02-04 20:13:47 · 364 阅读 · 1 评论 -
论文阅读——SG-Former
方法的核心是利用显著性图,根据每个区域的显著性重新分配tokens。通过将几个tokens合并为一个token聚合来减少序列长度这种减少注意力计算的聚合方法面临两个问题:(i)信息可能在显著区域丢失或与不相关的信息混合,(ii)在次要区域或背景区域,许多标记(序列的较高比例)对于简单语义是冗余的,同时需要大量计算。然后H个相互独立的自注意力头平行的计算自注意力,为了计算注意力后保持特征图大小不变的同时降低计算成本,使用重要性引导聚合模块(IAM)固定Q的长度,但聚合K和V的tokens。原创 2023-12-31 20:52:41 · 1071 阅读 · 0 评论 -
论文阅读——EfficientViT(cvpr2023)
每个阶段堆叠所提出的Ef ficientViT构建块,并且在每个子采样层,令牌的数量减少4倍(分辨率的2倍子采样)。为了实现高效的二次采样,提出了一种高效的ViT二次采样块,它也具有三明治布局,只是自注意层被倒置的残差块取代,以减少二次采样过程中的信息损失。典型的ViT主要继承了NLP变换器的设计策略,例如,使用Q、K、V投影的等效宽度,逐级增加头,并将FFN中的膨胀比设置为4。这表明在不同的头部中使用不同的通道分割特征,而不是像MHSA那样对所有头部使用相同的完整特征,可以有效地减少注意力计算冗余。原创 2023-12-30 11:48:37 · 1530 阅读 · 0 评论 -
论文阅读——Slide-Transformer(cvpr2023)
以k=3为例,如果我们首先将原始特征图向9个不同的方向移动(图3(2.b)),然后将这些特征展平成行,最后将它们连接成列(图3的2.c)),则所获得的键/值矩阵被证明等效于HW局部窗口,该窗口可以恢复与原始Im2Col函数完全相同的输出(图3中的1.c))。尽管部分解决了查询不可知的键值对的限制,但所设计的模式可能会导致不自然的情况,即不同窗口边缘的特征尽管在特征图中很近,但却被完全隔离。与以前的模式相比,局部注意力同时具有卷积和自我注意力的优点:1)以查询为中心的注意力模式产生的局部归纳偏差;原创 2023-12-29 11:43:08 · 1820 阅读 · 0 评论 -
论文阅读——TÜLU
原创 2023-12-26 20:42:01 · 408 阅读 · 0 评论 -
论文阅读——UniRepLKNet
原创 2023-12-26 11:57:23 · 2663 阅读 · 1 评论 -
论文阅读——X-Decoder
对于mask classification,包括“background”在内C个类别编码为C个文本查询,提取每个查询最后一个有效特征作为概念表示,然后取对应前(m-1)个潜在查询的decoder输出,计算这些输出和概念表示的点乘,得到。其中,对第一个公式,所有查询和视觉特征做交叉注意力,对于潜在查询,使用masked cross-attention mechanism,对文本查询使用全部注意力。对,m个潜在查询输出mask,对于语义输出,为潜在查询和文本查询预测输出,,文本T经过text encoder。原创 2023-12-25 21:12:02 · 1473 阅读 · 1 评论 -
Multimodal Foundation Models:From Specialists to General-Purpose Assistants(Chapter 6-7)
原创 2023-12-25 11:04:33 · 821 阅读 · 0 评论 -
Multimodal Foundation Models:From Specialists to General-Purpose Assistants(Chapter 5)
(ii)ChatGPT和InstructGPT通过在高质量的教学遵循数据上微调基础语言模型GPT-3/GPT-3.5,并通过人类反馈的强化学习,用奖励模型来改进它们,展示了LLM的教学遵循和与人类意图一致的重要性。Quick assessment of LLM chatbots:有这么个数据集:Vicuna-Instructions-80,这是一个包含80个问题的数据集,除了通用指令外,指令还分为8类,包括知识、数学、费米、反事实、角色扮演、通用、编码、写作和常识。除了视觉外扩展更多模态,如语音,3D等。原创 2023-12-24 21:19:38 · 967 阅读 · 0 评论 -
Multimodal Foundation Models:From Specialists to General-Purpose Assistants(Chapter 4)
例如,粗粒度数据有望有助于细粒度任务所需的丰富语义支持,而经过精细训练的数据则可以增强粗粒度任务的基础能力。不同任务粒度不同:图片级别的分类、描述,区域级别的检测、grounding,像素级别的分割,超分辨率。数据集:标注类型差别非常大,相比文本数据,视觉数据很难获得,所以一般视觉数据集比文本数据集小一些。输出的形式也不同:空间信息如边缘、框、掩码,语义信息如单类别标签、多类别标签、细节描述。涉及的模型:PerSAM,SEEM,ImageBind,Prismer等。原创 2023-12-24 13:15:42 · 414 阅读 · 0 评论 -
论文阅读—— Multimodal Foundation Models:From Specialists to General-Purpose Assistants(Chapter 3)
在将输入密集条件与输入中的视觉潜在特征结合并将ControlNet分支的输出合并回SD的上采样块之前,有一个独特的零初始化1×1卷积层。基于这一观察,该研究实现了对扩散T2I模型生成的图像进行三种编辑,包括单词交换、添加新短语和注意力重新加权,每种编辑都通过对图像文本交叉注意力图进行相应的操作来实现。Visual concept customization:将视觉概念融入文本输入对于各种应用程序至关重要,例如在不同的环境中生成宠物狗或家庭成员的图像,或制作以特定角色为特征的视觉叙事。s(t)是指导强度。原创 2023-12-23 21:13:26 · 1094 阅读 · 0 评论 -
论文阅读—— Multimodal Foundation Models:From Specialists to General-Purpose Assistants(Chapter 1-2)
为了提高共享图像-文本嵌入空间的可解释性,STAIR提出将图像和文本映射到高维、稀疏的嵌入空间,其中稀疏嵌入中的每个维度是大字典中的(子)词,其中预测的非负标量对应于与令牌相关联的权重。开始在ImageNet,ImageNet21K上预训练如ResNet,Swin transformer,但是效果受到数据集规模和多样性的制约,于是有了更大数据集,从网络上抓取的图像-文本对中大量导出有噪声的标签,如IG-3.6B,提出了很多损失函数,如large margin loss。现有的工作集中在三个研究主题上。原创 2023-12-23 17:17:14 · 703 阅读 · 0 评论 -
论文阅读——Flamingo
在给定的文本标记下,模型关注交错序列中出现在其之前的图像的视觉标记,而不是所有先前的图像。重要的是,这种单图像交叉注意力方案允许模型无缝地推广到任何数量的视觉输入,无论在训练期间使用多少。特别是,当在交错数据集上进行训练时,我们每个序列最多只使用5个图像,但我们的模型能够在评估过程中受益于多达32对(或“镜头”)图像/视频和相应文本的序列。预训练并且冻结的NFNet,在我们的数据集上使用文本图片对的对比损失训练,然后把提取的特征打成向量。原文内容还有很多细节。3 训练时的一些说明。原创 2023-12-22 20:30:37 · 1328 阅读 · 0 评论 -
论文阅读——llava
这个线性映射很简单,也可以设计复杂一些,比如gated cross-attention in Flamingo [2] and Q-former in BLIP-2。对于图像Xv,随机采样问题Xq,这是要求assistant简要描述图像的语言指令。使用LLM的原始自回归训练目标,对LLM预测的tokens执行指令调整。指令智能体分为两类:端到端的,通过LangChain[1]/LLM[35]协调各种模型的系统。保持视觉编码器权重冻结,并继续更新LLaVA中投影层和LLM的预训练权重。原创 2023-12-22 18:16:58 · 1317 阅读 · 0 评论 -
论文阅读——BLIP-2
上面几部分已经训练好一个提取语言信息视觉表示(extract language-informative visual representation)的模型,也就是,上面训练好的Q-Former已经可以从视觉编码器中提取和文本相关的视觉信息了。计算Z的每个向量和t的相似性,选最高的作为图片文本相似性。Q-Former由两个转换器子模块组成,它们共享相同的自注意层:(1)与冻结图像编码器交互用于视觉特征提取的图像转换器,(2)既可以用作文本编码器又可以用作文本解码器的文本转换器。原创 2023-12-22 12:28:31 · 1320 阅读 · 0 评论 -
论文阅读——RS DINO
遥感图像切分的时候把一个建筑物整体比如飞机场切分到不同图片中,这样就切分成几块了,这样会使图片特征产生一些裁剪损失。操作起来就是,把一个batch的特征打成一个向量,然后不同batch之间计算注意力,然后再reshape回去。一个特征图在通道级别上做注意力,得到注意力分数后和原来的特征图相乘,然后再加上原始特征图,相当于一个残差连接。所以,提出通过计算不同图片patch之间的注意力提取长距离上下文信息,来减小这种损失。原创 2023-12-21 19:25:17 · 673 阅读 · 0 评论 -
论文阅读——Painter
训练时,输入是同一任务的两对图片concatenation,每对图片是原始图片和相应的任务输出图片,即GT。对于第二张图片即输出图片GT做了随机掩码,比例75%,重建遮挡的这部分,这部分训练时用一个可学习的向量代替被遮挡的patch。由于输入两对图片concatenation,所以计算量大,所以作者降低计算量的办法是输入图片和输出图片分别平行的送入模型,然后三个blocks后相对应的patch相加。任务提示,作者给了两种基线办法:从训练集里面选好的,和生成一个可学习的。损失函数smooth-l1。原创 2023-12-18 20:28:49 · 694 阅读 · 0 评论