- 博客(6)
- 收藏
- 关注
原创 从入门到入土 4:从理论到实践——构建大规模图像与视频生成器
本文探讨了生成模型从理论到工程落地的关键技术挑战与解决方案。针对高维图像/视频数据建模难题,提出了两大核心策略:神经网络架构创新(U-Net/DiT)和潜空间压缩技术(VAE)。文章详细分析了Stable Diffusion 3和Meta Movie Gen等工业级系统的设计要点,包括多模态DiT架构、时空压缩、文本条件融合等关键技术。通过构建"微分方程+数据驱动学习+高效架构"的技术路线,实现了从理论数学到百万像素级生成系统的跨越,为现代生成式AI提供了完整的工程实现框架。
2026-03-22 20:03:11
590
原创 从入门到入土 3:Score Matching 与 Guidance——从学习梯度到控制生成
本文介绍了基于分数匹配(Score Matching)和引导技术(Guidance)的生成模型方法。核心内容包括:1)分数函数作为概率密度的方向指示器,可通过去噪分数匹配学习;2)利用学习到的分数函数构造随机微分方程(SDE)进行灵活采样;3)条件生成技术,特别是Classifier-Free Guidance(CFG),通过混合无条件和条件模型实现精确控制生成内容。该方法为当前主流生成模型(如Stable Diffusion等)提供了理论基础,实现了从学习数据梯度到控制生成过程的完整路径。
2026-03-22 18:59:50
541
1
原创 从入门到入土 2:Flow Matching——如何训练一个生成模型
本文介绍了Flow Matching(流匹配)方法,这是一种训练生成模型的高效算法。Flow Matching将生成问题转化为微分方程模拟,通过神经网络学习驱动噪声到目标数据分布的速度场。其核心思想是先为每个数据点构建条件概率路径,再整合为边际概率路径。训练时,神经网络直接拟合已知的条件速度场,而非复杂的边际速度场,这通过条件流匹配损失函数实现。算法流程简洁:混合数据点和噪声后,回归预测速度与目标速度的误差。Flow Matching无需模拟完整ODE轨迹,训练高效,已成为主流方法。
2026-03-21 20:21:56
677
3
原创 从入门到入土 1:Flow and Diffusion Models—— 生成建模、ODE 与 SDE 基础
生成模型(generative model)就是一个算法,它能在训练后(近似地)从pdatapdata中采样。本文将聚焦于流模型(flow model)和扩散模型(diffusion model),它们是目前最主流的生成模型。小结生成建模的核心问题,本质上是学习如何对数据的真实分布pdatapdata进行近似采样。将生成问题形式化为从一个简单分布pinitpinit通过微分方程演化到目标分布pdatapdata。流模型。
2026-02-26 23:56:09
1277
原创 StarVLA模型LIBERO基准复现指南
本文简述AutoDL云服务器部署StarVLA模型并进行LIBERO评估的核心流程:创建两个Python3.10环境(分别用于LIBERO模拟器和模型推理),通过huggingface-cli下载7.9GB模型文件,准备LeRobot格式数据集,修改评估脚本路径配置,修复模型配置文件兼容性问题,解决无头服务器渲染问题(设置EGL或OSMesa渲染后端)。同时总结常见问题解决方案,强调环境配置、模型下载完整性、代码适配及渲染设置等关键环节,为云端视觉语言动作模型部署提供实用参考。
2026-02-21 21:03:21
642
原创 AutoDL云服务器复现StarVLA全记录
路径尽量使用绝对路径。严格遵循官方推荐的 flash-attn 版本。huggingface_hub 版本需根据任务切换。注释掉调试代码以正常执行。此记录基于实际操作整理,希望对后续使用者有所帮助。
2026-02-19 23:29:57
664
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅