C--G-CSDN博客

原创 Ubuntu服务器启动jupyter notebook，本地电脑Mobaxterm访问

服务器启动jupyter notebook。下载jupyter notebook。Mobaxterm 创建SSH链接。取消密度登录（可选）

2025-06-18 21:35:07 307 1

原创 windows anaconda 安装 Labelme

右键选择标注类型，从上到下为多边形（常用）、矩形、圆、线和点。标注完之后点击save进行保存，注意：最好把标注完的json文件与原图存放在一个目录下，这样在后期查看的时候可以看到原图与标注区域的叠加，而不单单是原图。

2024-06-19 10:11:05 1762 1

原创 Ubuntu18.04 安装 colmap

安装依赖sudoapt-getinstall\git\cmake\ninja-build\build-essential\libboost-program-options-dev\libboost-filesystem-dev\libboost-graph-dev\libboost-system-dev\libeigen3-dev\libflann-dev\libfree

2024-06-14 15:58:14 633

原创 Ubuntu18.04 安装 anconda

是否希望更新shell配置文件以自动初始化conda。一直回车，输入yes。

2024-05-08 11:09:20 594

我们一般使用 VSCode 、MobaXterm、PuTTY等 SSH 客户端来远程管理 Linux 服务器。但是，一般的密码方式登录，容易有密码被暴力破解的问题。所以，一般我们会将 SSH 的端口设置为默认的 22 以外的端口，或者禁用 root 账户登录。但是即使是将端口设置为22之外的端口也容易泄露。为了保证服务器安全，此时希望使用密钥方式登录。而且使用秘钥登录能够避免每次登录时反复输入账户密码。密钥形式登录的原理是：利用密钥生成器制作一对密钥——公钥和私钥。

2024-05-07 21:41:39 2293

原创 110、2D Gaussian Splatting for Geometrically Accurate Radiance Fields

由于三维高斯的多视图不一致性，3DGS无法准确地表示表面将三维体折叠成一组二维定向平面高斯盘。与3D高斯函数不同，2D高斯函数在本质上建模表面时提供了一致的视图几何。为了准确地恢复薄表面并实现稳定的优化，我们引入了一种利用射线-飞溅相交和光栅化的透视精度2D飞溅过程与3DGS不同，用二维高斯基元表示3D场景，每个基元定义一个定向椭圆盘。2D高斯函数相对于3D高斯函数的显著优势在于在渲染过程中精确的几何表示。具体来说，。相比之下，利用明确的射线-飞溅相交，导致透视精度飞溅。

2024-04-07 20:51:46 2973 1

原创 15、Scalable Diffusion Models with Transformers

DiT（Diffusuion Transformer）将扩散模型的 UNet backbone 换成 Transformer，并且发现通过增加 Transformer 的深度/宽度或增加输入令牌数量，具有较高 Gflops 的 DiT 始终具有较低的 FID（~2.27），这样说明 DiT 是可扩展的（Scalable），网络复杂度（以 Gflops 度量）与样本质量（以 FID 度量）之间存在强相关性。

2024-04-03 15:14:03 1508

原创 WSL2 Kernel header安装

若发现有/bin/sh: 1: bison: not found或者/bin/sh: 1: flex: not found错误，错误的原因在于确实相应模块bison和flex，只需要安装上相应模块即可。本来正常的linux发行版只要安装linux-headers-$(uname -r)就能装上内核头文件，但wsl2作为一个不一般的linux发行版，并没有直接给出安装包，要手动安装才能正常使用。先 cp 到wsl里面的home目录，千万不能直接在windows目录里，那样子会失败的。确认Kernel版本。

2024-04-02 11:11:04 1161

原创 14、One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications

以往的方法往往以对非目标概念的退化为代价来实现对扩散模型的目标概念去除。它们遭受不可预测的世代变化，当目标概念数量增加时，这种变化甚至升级为概念侵蚀。相比之下，SPM实现了精确的多概念擦除，同时保留了预训练DM的生成能力。此外，特定于概念的SPM提供了向其他模型的无需训练的可移植性，使其成为一种通用的解决方案。为了实现非侵入性的、精确的、可定制的和可转移的消除，将擦除框架建立在一维适配器上，以便在通用擦除应用程序中一次从大多数dm中擦除多个概念。

2024-04-01 15:42:04 1001

原创 109、Recent Advances in 3D Gaussian Splatting

对3D Gaussian Splatting的综述。

2024-03-28 21:14:14 2901

原创 108、3D Gaussian Splatting for Real-Time Radiance Field Rendering

简介官网更少训练时间的同时实现最先进的视觉质量，能在1080p分辨率下实现高质量的实时(≥30 fps)新视图合成NeRF使用隐式场景表示，体素，点云等属于显示建模方法，3DGS就是显示辐射场。它用3D高斯作为灵活高效的表示方法，同时利用神经网络的特性进行参数优化，旨在以更快的训练速度和实时性能实现高质量的渲染，尤其适用于复杂场景和高分辨率输出。nerf是一个连续的表示，隐含地表示空/占用空间;为了找到空间点的样本，需要进行昂贵的随机抽样，由此产生噪声和计算开销。相比之下，点是一种非结构化的离散表

2024-03-24 15:58:42 1636 1

原创 13、Deconstructing Denoising Diffusion Models for Self-Supervised Learning

可视化可以帮助更好地理解l-DAE如何学习良好的表示l-DAE，它在很大程度上类似于经典DAE，可以在自监督学习中表现得很有竞争力。关键分量是加有噪声的低维潜在空间。

2024-03-21 20:11:45 1299

原创 8、MipNeRF360

【代码】8、MipNeRF360。

2024-03-02 19:17:07 775

原创阿里云服务器搭建frps实现内网穿透

frp 是一个开源、简洁易用、高性能的内网穿透和反向代理软件，支持 tcp, udp, http, https等协议。想要配置frp穿透，首先必须先要有一台具有外网ip(即：可以外网访问)的服务器，这里使用阿里云ECS云服务器。

2024-02-11 15:41:43 5227 2

原创 107、Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Re

两阶段3D生成。第一阶段使用3D Gaussian Splatting 生成粗糙的三维表示，第二阶段使用 Diffusion Repainting 优化细节。目前的方法采用SDS损失，导致纹理不一致，质地差。

2024-01-19 15:31:44 1167

原创 106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation

很多工作在扩散先验中注入跨视图一致性，但仍然缺乏细粒度的视图一致性。论文提出的文本到3d的方法有效地减轻了漂浮物(由于密度过大)和完全空白空间(由于密度不足)的产生。

2024-01-16 14:28:04 1285

原创 105、Zero-1-to-3: Zero-shot One Image to 3D Object

使用合成数据集来学习相对摄像机视点的控制，这允许在指定的摄像机变换下生成相同对象的新图像，用于从单个图像进行三维重建的任务。

2024-01-11 14:58:15 1826

原创 21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

将原始LiDAR数据作为输入，利用LLMs卓越的推理能力，来获得对室外3D场景的全面了解，将3D户外场景认知重构为语言建模问题，如3D captioning, 3D grounding, 3D question answering。

2024-01-10 15:39:03 1427

原创 104、Behind the Scenes: Density Fields for Single View Reconstruction

提出预测隐密度场方法，该密度场将输入图像视锥中的每个位置映射到体积密度。通过直接从可用视图中采样颜色，而不是在密度场中存储颜色，与NeRFs相比，所提出的场景表示变得明显不那么复杂，并且神经网络可以在一次前向传递中预测它，从视频数据中进行自我监督训练预测网络。该公式允许体绘制执行深度预测和新视图合成。

2024-01-09 17:15:50 987

原创 103、GAUDI: A Neural Architect for Immersive 3D Scene Generation

GAUDI在多个数据集的无条件生成环境中获得了最先进的性能，并允许在给定条件变量(如稀疏图像观察或描述场景的文本)的情况下有条件地生成3D场景。

2024-01-08 15:25:57 1452

原创 102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies

Nvidia2023提出的一种新的生成模型，可生成具有任意属性的高分辨率稀疏3D体素网格，以前馈方式生成数百万体素，最细有效分辨率高达10243，而无需耗时的 test-time 优化，使用一种分层体素潜扩散模型，使用建立在高效VDB数据结构上的自定义框架，以从粗到细的方式生成逐步更高的分辨率网格。XCube在100 m×100 m规模的大型户外场景中的有效性，体素大小小至10 cm。

2024-01-05 15:26:04 1482

原创 20、Finetuning

手动尝试最优的提示无异于大海捞针，于是便有了自动离散提示搜索的方法，但提示是离散的，神经网络是连续的，所以寻找的最优提示可能是次优的。而如果采用固定预训练模型的某些层，只微调接近下游任务的那几层参数，又难以达到较好的效果。PEFT（Parameter-Efficient Fine-Tuning）是hugging face开源的一个参数高效微调大模型的工具，里面集成了4种微调大模型的方法，可以通过微调少量参数就达到接近微调全量参数的效果，使得在GPU资源不足的情况下也可以微调大模型。

2024-01-03 21:28:48 2020

原创 19、BLIP-2

通过利用预训练的视觉模型和语言模型来提升多模态效果和降低训练成本，预训练的视觉模型能够提供高质量的视觉表征，预训练的语言模型则提供了强大的语言生成能力。

2024-01-03 15:27:23 1456

原创 18、BLIP

BLIP提出了一种基于预训练的方法，通过联合训练视觉和语言模型来提升多模态任务的性能。BLIP(Bootstrapping Language-Image Pretraining)是salesforce在2022年提出的多模态框架，是理解和生成的统一，引入了跨模态的编码器和解码器，实现了跨模态信息流动。在AIGC中通常用来给图像生成prompt，好的prompt对交叉注意力的微调非常关键，例如ControlNet中的Automatic Prompt就是BLIP生成的。

2024-01-02 19:03:48 1085

原创 7、InternVL

。

2024-01-02 15:46:24 1247

原创 17、InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

(a)表示传统的视觉基础模型，如对分类任务进行预训练的ResNet。(b)表示视觉语言基础模型，例如CLIP，对图像-文本对进行预训练。(c)InternVL，它提供了一种将大规模视觉基础模型(即InternViT-6B)与大型语言模型对齐的可行方法，并且对于对比和生成任务都是通用的。比较各种通用视觉语言任务的结果，包括图像分类、视频分类、图像文本检索、图像字幕和多模态对话。InternVL在所有这些任务上都达到了最佳性能。

2024-01-02 14:52:49 2798

原创 16、White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?

提出了一种新的白盒变压器架构，名为，通过操作来实现数据的表示学习。这种架构的设计使得内部表示更易解释，相比于黑盒变压器，CRATE的内部表示具有更清晰和易提取的语义含义。通过最大化 coding rate reduction——∆R(z)，可以促使特征zi被紧凑地编码为低维高斯分布的混合物，其中不同的高斯分布在统计上是不相关的。还探讨了之间的联系，指出去噪等价于学习数据分布的表示。因此提出了一种结构化的去噪-扩散理论，以此来构建一致的编码器-解码器对 f, g。

2023-12-30 21:35:11 1616

原创 2、Latex数学公式大全

来源

2023-12-30 08:45:21 1607

原创 6、LLaVA

LLaVA使用(LLaMA-2)作为LLMfϕ⋅，使用预训练的CLIP图像编码器 ViT-L/14gXv。输入图像Xv，首先获取featureZvgXv。考虑到最后一层Transformer前后的网格特征，采用简单的线性层连接图像特征到词嵌入空间，即使用一个可训练的投影矩阵 W 将Zv转换为语言嵌入令牌Hv（与语言模型中词嵌入空间具有相同的维数）。简单投影方案是轻量级的，它允许快速迭代以数据为中心的实验。

2023-12-28 22:30:01 4936

原创 101、nerfstudio——ScaleAndShiftInvariantLoss

【代码】101、nerfstudio——ScaleAndShiftInvariantLoss。

2023-12-26 11:04:43 863

原创 5、Grounded Segement Anything

【代码】5、Grounded Segement Anything。

2023-12-13 14:18:01 825

原创 12:Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

单目深度估计的扩散模型和相关的协议。核心原理是利用现代生成图像模型中存储的丰富视觉知识。模型源自于稳定扩散和微调合成数据，可以零样本转移到未见过的数据集，提供最先进的单目深度估计结果。

2023-12-11 19:40:35 3976

原创 100：ReconFusion: 3D Reconstruction with Diffusion Priors

少样本重建必然导致nerf失败，论文提出使用diffusion模型来解决这一问题。从上图不难看出，论文一步步提升视角数量，逐步与Zip-NeRF对比。

2023-12-11 14:03:48 2301 1

原创 99、NeRF ray space

CG相机模型在图形学中最常用的相机模型的原理和小孔成像是类似的。不同之处在于，如上图，小孔成像得到的图像是倒立的，但是我们希望得到的图像是正向的，因此，我们选择小孔前成像。从 3D 到 2D 的投影，就是根据 3D 物体的坐标，计算其投影到 2D 成像平面上的坐标。对于一个已有的相机而言，只有在恰当位置范围内的 3D 物体才可能投影到成像平面上。这个恰当范围，跟成像平面的大小，以及相机中心到平面距离等因素有关。在图形学中有一个专门的模型来定义这个范围：上图这个形似棱锥的模型，就是相机的可视范

2023-12-09 22:11:14 1164

原创 4、stable diffusion

当我们运行scripts/txt2img.py时，会发现还需要从hugging face下载encoding，但是国内无法下载，这时候我们会科学上网，同时安装下述依赖，这样就可以下载了。找到符合自己python，pytorch和cuda版本的xformers安装包。--device 默认为cpu，要换成 cuda，否则报错。

2023-11-28 20:31:13 1975