zrrrm-CSDN博客

原创从入门到入土 4：从理论到实践——构建大规模图像与视频生成器

本文探讨了生成模型从理论到工程落地的关键技术挑战与解决方案。针对高维图像/视频数据建模难题，提出了两大核心策略：神经网络架构创新（U-Net/DiT）和潜空间压缩技术（VAE）。文章详细分析了Stable Diffusion 3和Meta Movie Gen等工业级系统的设计要点，包括多模态DiT架构、时空压缩、文本条件融合等关键技术。通过构建"微分方程+数据驱动学习+高效架构"的技术路线，实现了从理论数学到百万像素级生成系统的跨越，为现代生成式AI提供了完整的工程实现框架。

2026-03-22 20:03:11 590

原创从入门到入土 3：Score Matching 与 Guidance——从学习梯度到控制生成

本文介绍了基于分数匹配（Score Matching）和引导技术（Guidance）的生成模型方法。核心内容包括：1）分数函数作为概率密度的方向指示器，可通过去噪分数匹配学习；2）利用学习到的分数函数构造随机微分方程（SDE）进行灵活采样；3）条件生成技术，特别是Classifier-Free Guidance（CFG），通过混合无条件和条件模型实现精确控制生成内容。该方法为当前主流生成模型（如Stable Diffusion等）提供了理论基础，实现了从学习数据梯度到控制生成过程的完整路径。

2026-03-22 18:59:50 541 1

原创从入门到入土 2：Flow Matching——如何训练一个生成模型

本文介绍了Flow Matching（流匹配）方法，这是一种训练生成模型的高效算法。Flow Matching将生成问题转化为微分方程模拟，通过神经网络学习驱动噪声到目标数据分布的速度场。其核心思想是先为每个数据点构建条件概率路径，再整合为边际概率路径。训练时，神经网络直接拟合已知的条件速度场，而非复杂的边际速度场，这通过条件流匹配损失函数实现。算法流程简洁：混合数据点和噪声后，回归预测速度与目标速度的误差。Flow Matching无需模拟完整ODE轨迹，训练高效，已成为主流方法。

2026-03-21 20:21:56 677 3

原创从入门到入土 1：Flow and Diffusion Models—— 生成建模、ODE 与 SDE 基础

生成模型（generative model）就是一个算法，它能在训练后（近似地）从pdatapdata中采样。本文将聚焦于流模型（flow model）和扩散模型（diffusion model），它们是目前最主流的生成模型。小结生成建模的核心问题，本质上是学习如何对数据的真实分布pdatapdata进行近似采样。将生成问题形式化为从一个简单分布pinitpinit通过微分方程演化到目标分布pdatapdata。流模型。

2026-02-26 23:56:09 1277

原创 StarVLA模型LIBERO基准复现指南

本文简述AutoDL云服务器部署StarVLA模型并进行LIBERO评估的核心流程：创建两个Python3.10环境（分别用于LIBERO模拟器和模型推理），通过huggingface-cli下载7.9GB模型文件，准备LeRobot格式数据集，修改评估脚本路径配置，修复模型配置文件兼容性问题，解决无头服务器渲染问题（设置EGL或OSMesa渲染后端）。同时总结常见问题解决方案，强调环境配置、模型下载完整性、代码适配及渲染设置等关键环节，为云端视觉语言动作模型部署提供实用参考。

2026-02-21 21:03:21 642

原创 AutoDL云服务器复现StarVLA全记录

路径尽量使用绝对路径。严格遵循官方推荐的 flash-attn 版本。huggingface_hub 版本需根据任务切换。注释掉调试代码以正常执行。此记录基于实际操作整理，希望对后续使用者有所帮助。

2026-02-19 23:29:57 664 2

zrrrm的博客

原创从入门到入土 4：从理论到实践——构建大规模图像与视频生成器

原创从入门到入土 3：Score Matching 与 Guidance——从学习梯度到控制生成

原创从入门到入土 2：Flow Matching——如何训练一个生成模型

原创从入门到入土 1：Flow and Diffusion Models—— 生成建模、ODE 与 SDE 基础

原创 StarVLA模型LIBERO基准复现指南

原创 AutoDL云服务器复现StarVLA全记录

空空如也

空空如也

原创 从入门到入土 4：从理论到实践——构建大规模图像与视频生成器

原创 从入门到入土 3：Score Matching 与 Guidance——从学习梯度到控制生成

原创 从入门到入土 2：Flow Matching——如何训练一个生成模型

原创 从入门到入土 1：Flow and Diffusion Models—— 生成建模、ODE 与 SDE 基础

原创 StarVLA模型LIBERO基准复现指南

原创 AutoDL云服务器复现StarVLA全记录

空空如也

空空如也

原创从入门到入土 4：从理论到实践——构建大规模图像与视频生成器

原创从入门到入土 3：Score Matching 与 Guidance——从学习梯度到控制生成

原创从入门到入土 2：Flow Matching——如何训练一个生成模型

原创从入门到入土 1：Flow and Diffusion Models—— 生成建模、ODE 与 SDE 基础