じんじん-CSDN博客

原创论文阅读——Unified Generative Adversarial Networks for Controllable Image-to-Image Translation

我们将来自源域的输入条件图像x和来自目标域的可控结构Cy输入到生成器G中并合成目标图像y = G(x, Cy) 这样，GT可控结构Cy提供了更强的监督和结构信息来指导深层网络中图像到图像的转换，而条件图像x提供了外观信息以产生最终结果y。这种新颖的损失可以提高我们实验部分的图像质量。定性和定量结果表明，在具有四个数据集的两个具有挑战性的可控图像翻译任务（即手势到手势翻译和跨视图图像翻译）上，所提出的 GAN 模型相对于最先进的方法具有优越性。在可控结构Cy的引导下，我们的生成器可以产生相应的图像y。

2024-05-05 20:50:55 592 2

原创论文阅读——MVDiffusion

2024-04-06 10:25:58 990 1

原创论文阅读——Sat2Vid

2024-04-06 08:48:46 1134 1

原创论文阅读——SpectralGPT

2024-03-17 15:10:06 728 1

原创论文阅读——EarthPT

2024-03-17 14:41:05 487 1

原创论文阅读——RSGPT

2024-03-17 11:09:35 1752 1

原创论文阅读——Rein

2024-03-16 21:52:38 1602 1

原创论文阅读——MoCo

2024-03-16 19:02:34 739 1

原创论文阅读——GeoChat（cvpr2024）

2024-03-16 16:25:23 2989 1

原创 Frustum PointNets for 3D Object Detection from RGB-D Data（2018）

② 3D Instance Segmentation 后，属于物体的点就可以提取出来（mask）① 给定摄像机投影矩阵，2D边框可以被提升到椎体，这个椎体定义了物体的3D搜索空间。① 输入椎体内的点云，预测每个点属于该物体的分数，一个椎体只含有一个感兴趣的物体。③ 旋转椎体，使椎体的中心轴正交于成像平面，可以提高算法的旋转不变性。点云转化成图片或一定分辨率的立体网格，再把2D卷积泛化到3D卷积。但是物体在空间中是分开的，所以在3D点云中分割是自然且相对容易。③ 进一步标准化物体点的坐标，提高平移不变性。

2024-03-14 20:01:40 645 1

原创射影几何 -- 摄像机几何 1

2024-03-14 20:00:29 377

原创射影几何 -- 两视点几何 1

2024-03-14 19:59:47 333

原创 Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering（2017）

（一组完全正交的特征向量），known as the graph Fourier modes, and their associated ordered real nonnegative eigenvalues。（这个D也就是每个点有几条边，加权）（相关的有序实非负特征值），

2024-03-14 19:57:24 786

原创数据结构 -- 第1章绪论

在起泡交换的过程中，尽管多数时候元素会朝着各自的最终位置不断靠近，但有的时候某些元素也的确会暂时朝着远离自己应处位置的方向移动。③有穷性与正确性：证明算法有穷性和正确性的一个重要技巧，就是从适当的角度审视整个计算过程，并找出其所具有的某种不变性和单调性。大Ω记号是对算法执行效率的乐观估计——对于规模为n的任意输入，算法的运行时间都不低于Ω(g(n))在规模为n的所有输入中选择执行时间最长者作为T(n)，并以T(n)度量该算法的时间复杂度。其中的单调性通常是指，问题的有效规模会随着算法的推进不断递减。

2024-03-14 19:56:18 432 1

原创 Pretrain-finetune、Prompting、Instruct-tuning训练方法的区别

2024-03-14 19:49:38 2303

原创 C++ 基础

2024-03-14 19:12:41 147

原创论文阅读——RingMo

2024-03-14 17:28:19 901 1

原创论文阅读——Align before Fuse

2024-03-14 16:44:01 760 1

原创论文阅读——BLIP

2024-03-14 12:27:37 1360 1

原创论文阅读——Vision Transformer with Deformable Attention

2024-03-13 18:41:18 1634 1

原创扩散概率模型（1）

加噪声多了就变成了一个已经看不清原始图片的一个图片，继续加，就认为最后得到的是一个服从标准高斯分布的一个图片，即白噪声，即我就可以认为最后的这个白噪声就是我随机挑的点，因为我随机挑的点就是白噪声，两者等价。假如，我前向过程，也就是加噪声的过程用了T步，也就是加了T次噪声，那我后向过程（也就是从噪声生成图片的过程）神经网络也得学习T步，学习到每一步加的什么噪声，然后我挑的那个随机点一步步减去这个学习到的噪声，最终经过T步相减后，就得到了一张图片。到这，上面损失函数公式中的比较都是在高斯分布之间比较的。

2024-03-13 15:15:55 995

原创 MAE预训练的VIT

2024-03-13 15:14:45 512

原创论文阅读——RemoteCLIP

2024-03-13 15:11:57 1474 1

原创论文阅读——ViTAE

2024-03-13 13:43:54 1189 1

原创论文阅读——VSA

2024-03-13 12:12:17 862 1

原创论文阅读——Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model

2024-03-13 11:46:57 737 1

原创 sora技术报告阅读

patches是在不同类型的视频和图像上训练生成模型的高度可扩展和有效的表示。在推理时，可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。Sora可以对宽屏幕1920x1080p视频、垂直1080x1920视频以及其间的所有视频进行采样，因此可以直接按照不同设备的固有纵横比为其创建内容。Sora是一个通用的视觉数据模型，它可以生成不同持续时间、宽高比和分辨率的视频和图像，最高可达一分钟的高清视频。使用原始分辨率效果更好。相比裁剪过的视频训练，原始视频训练的sora有了更好的取景效果。

2024-02-29 22:31:39 347

原创论文阅读——SimpleClick

迭代点击模拟策略生成的点是有顺序的，后一次点击应该在前次点击生成的掩码错误的区域，更像人类点击。2、结合前次交互得到的掩码作为额外输入，提高分割质量，以及根据现有的分割掩码refine.受到RITM启发，使用随机和迭代的点击模拟策略结合。损失函数：normalized focal loss。1、在当前分割自动模拟点击，没有人为提供的点击。用VIT MAE方法训练的预训练权重。模型直接在VIT上增加交互是分割。随机点击生成的点不考虑顺序，

2024-02-23 19:59:37 971 1

原创论文阅读——ONE-PEACE

Vision Adapter：使用hierarchical MLP (hMLP) stem对图像分块，直到patch size 16 × 16，不同块之间没有交互。Language Adapter (L-Adapter)：先变成subword sequence-->加上[CLS] and [EOS]-->embeddings-->absolute positional embeddings-->Audio Adapter (A-Adapter)：16kHz采样，归一化数据，使用卷积提取相对特征。

2024-02-20 20:14:06 862 1

原创论文阅读——SqueezeSAM

训练时每个图片随机选8个masks，改变了点击送入模型的方式，原始sam模型训练时每个批次点击一次得到一个点击样本，然后模型再运行，因此一个批次运行了很多步，增加了训练时间，因此本文模型简单的一个批次收集一些点，然后训练一步。对于用户点击和框，单独作为通道，前融合和后融合（sam只有后融合）。使用BatchNorm而不是LayerNorm节省计算；比SAM更小，更快。

2024-02-20 20:11:52 552 1

原创论文阅读——MP-Former

去噪训练的关键思想是将带噪声的GT坐标与可学习查询并行地送到Transformer解码器中，并训练模型去噪和恢复GT边框坐标。MPFormer去噪训练的思想从DN-DETR来，改进的mask2former模型。MPformer送入class embeddings作为查询，给每层解码层送入GT masks作为attention masks，然后让模型重建类别和masks。作者把mask2former看做一个掩码不断精细化的过程，一层的预测作为下一层的attention masks。

2024-02-05 22:50:51 1060 1

原创论文阅读——Reviving Iterative Training with Mask Guidance for Interactive Segmentation

交互式分割

2024-02-04 20:13:47 463 1

原创强化学习-2张

2024-01-17 13:14:04 420

原创强化学习（1）——scratching the surface

2024-01-16 21:18:07 383

原创吴恩达-从人类反馈中进行强化学习RLHF

评估方法是对比两个输出，找出他们喜欢的那个。数据集捕捉的是标注员的偏好而不是人类整体的偏好。偏好数据集比较难建立，取决于你希望你的模型更积极还是更有用。在RLHF这个场景中，策略是我们要微调的大模型，当前状态是上下文中的任何内容，动作是产生tokens，每次大模型生成一个完成，就会从奖励模型中得到奖励，指示生成文本的对齐程度。推理阶段，奖励模型接收一个提示和答案，返回一个标量值，这个标量值表明了答案有多好。奖励模型本质上是一个回归模型，输出数字。输入是三元组：（提示，完成1，完成2），输出一个分数。

2024-01-16 19:52:10 510

原创论文阅读——SG-Former

方法的核心是利用显著性图，根据每个区域的显著性重新分配tokens。通过将几个tokens合并为一个token聚合来减少序列长度这种减少注意力计算的聚合方法面临两个问题：（i）信息可能在显著区域丢失或与不相关的信息混合，（ii）在次要区域或背景区域，许多标记（序列的较高比例）对于简单语义是冗余的，同时需要大量计算。然后H个相互独立的自注意力头平行的计算自注意力，为了计算注意力后保持特征图大小不变的同时降低计算成本，使用重要性引导聚合模块（IAM）固定Q的长度，但聚合K和V的tokens。

2023-12-31 20:52:41 1224 1

原创论文阅读——EfficientViT（cvpr2023）

每个阶段堆叠所提出的Ef ficientViT构建块，并且在每个子采样层，令牌的数量减少4倍（分辨率的2倍子采样）。为了实现高效的二次采样，提出了一种高效的ViT二次采样块，它也具有三明治布局，只是自注意层被倒置的残差块取代，以减少二次采样过程中的信息损失。典型的ViT主要继承了NLP变换器的设计策略，例如，使用Q、K、V投影的等效宽度，逐级增加头，并将FFN中的膨胀比设置为4。这表明在不同的头部中使用不同的通道分割特征，而不是像MHSA那样对所有头部使用相同的完整特征，可以有效地减少注意力计算冗余。

2023-12-30 11:48:37 1909 1

CRAFT.pptx

Detection Hub-Unifying Object Detection Datasets via Query Adapt

斯坦福大学CS224：深度自然语言处理NLP课程课件

空空如也