LuoBoBo_72-CSDN博客

原创 VAR阅读笔记（Visual Autoregressive Modeling Scalable Image Generation via Next-Scale Prediction）

这篇文章提出了一种新的自回归模型框架——视觉自回归建模（VAR），其核心思想是通过粗到细的“下一个尺度预测”或“下一个分辨率预测”，与传统的自回归模型（通常是通过逐像素的光栅扫描方式进行“下一个标记预测”）有所不同。超越传统自回归模型，在不同数据集有性能提升。VAR模型在大规模扩展时表现出类似于大型语言模型（LLM）所观察到的幂律规律，且零样本泛化能力非常强，可以直接应用于下游任务，如图像修补、外推和编辑。扩展规律（Scaling Laws）和零-shot泛化。挑战自回归视觉模型的性能滞后。

2025-01-10 14:59:20 1162

原创神经网络概念--梯度消失和梯度爆炸

是深度学习中的两个常见问题，尤其是在训练深层神经网络时。它们都与网络权重的梯度有关，这些梯度是通过反向传播算法计算出来的，用于网络权重的更新。

2024-01-08 16:49:03 1090

原创神经网络基础概念解释--感受野

感受野指的是在神经科学和深度学习中，特定神经元响应的空间范围。在深度学习的上下文中，尤其是在卷积神经网络中，它表示对于网络中一点输出，其对输入影响的区域大小。

2024-01-08 16:16:09 613

原创论文阅读--MoVQ Modulating Quantized Vectors for High-Fidelity Image Generation

虽然两级Vector Quantized (VQ) 生成模型（例如 VQVAE-2）能够合成高保真度和高分辨率的图像，但它们的量化操作符将图像中相似的 patch 编码到相同的索引中，这可能导致使用现有解码器架构时，相邻区域出现重复产生的伪影。现有的 VQ-VAE 或 VQGAN 模型虽然性能出色，但也有其缺点。它们的第二阶段通常以自回归的方式建模为序列生成过程，逐个生成不同空间位置的离散潜码，这是一个非常耗时的推理过程。

2023-12-31 15:58:51 957 1

原创论文阅读--High-Resolution Image Synthesis with Latent Diffusion Models

Diffusion model相比GAN可以取得更好的图片生成效果，然而该模型是一种自回归模型，需要反复迭代计算，因此训练和推理代价都很高。论文提出一种在潜在表示空间（latent space）上进行diffusion过程的方法，从而能够大大减少计算复杂度，同时也能达到十分不错的图片生成效果。扩散模型是一类概率模型，设计用于通过逐渐去噪正态分布变量来学习数据分布pxp(x)px，这相当于学习固定马尔可夫链长度TTT的逆过程。

2023-12-30 21:34:45 1333 1

原创 1×1卷积核的作用

卷积操作中，每一个输出通道都是通过对所有64个输入通道在相同空间位置（同一个宽度和高度）的像素进行加权求和，然后可能加上一个偏置项，来生成的。每个新的输出通道有自己的一组64个权重，这些权重决定了如何从输入的64个通道中融合信息。因此，通过这种方式，原先的64个通道被压缩或融合为16个通道。通过对所有输入通道的相同位置的像素进行加权求和，它可以将输入通道融合成较少的输出通道。卷积层来减少通道的数量，从64个减少到16个，提高网络效率和改变特征表示。，即宽度为32个像素，高度为32个像素，有64个通道。

2023-12-24 16:15:38 1025 2