扩散模型模型结构整理（持续更新）

发顶会！发发发！给我sota！

已于 2024-11-17 20:01:20 修改

阅读量303

点赞数 3

文章标签：人工智能

于 2024-11-16 21:24:50 首次发布

本文链接：https://blog.csdn.net/weixin_65237511/article/details/143823486

版权

扩散模型的原理网上已经有很多解析了，但是目前扩散模型的结构设计以及改进也层出不穷，接下来就介绍一些经典或最新的结构，也是为了促使自己多看论文，快速入门。

也欢迎小伙伴推荐补充～

DDPM

论文：https://arxiv.org/pdf/2006.11239

代码：https://github.com/hojonathanho/diffusion

这篇论文应该是扩散模型的必读之作。

输入：加噪图像[b, 3, h, w], 时间[t,]
输出：x_0或者噪声

时间t经过最常见的频率编码，随后经过MLP得到时间编码time embed。

加噪的输入图像经过encoder-mid-decoder的结构，其中还使用了skip-connection的技巧，将encoder的每一层保存起来，在decoder对应层的时候与上一层的输出concat再送入下一层。

encoder的每一层包括多个卷积残差块和自注意力块的堆叠。除去最后一层，每层的最后还会跟一个下采样层。

mid的每一层结构为残差卷积块+自注意力块+残差卷积块

decoder的每一层也包括阔哥卷积残差块与自注意力块的堆叠。除去第一层，每层的最后会跟一个上采样层。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

发顶会！发发发！给我sota！

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

TPAMI 2024 | MotionDiffuse：基于文本驱动的人体运动生成扩散模型

小白学视觉

07-21

584

人类动作建模是许多现代图形应用的重要组成部分，通常需要专业技能。为了消除普通人的专业技能障碍，最近的动作生成方法可以直接根据自然语言生成人体动作。然而，使用各种文本输入实现多样化和细粒度动作生成仍然具有挑战性。为了解决这个问题，我们提出了MotionDiffuse，这是最早的基于扩散模型的文本驱动动作生成框架之一，它展示了相对于现有方法的几个理想属性。1) 概率映射。与确定性的语言-动作映射不同，MotionDiffuse通过一系列去噪步骤生成动作，在这些步骤中注入变化。2) 现实合成。

关于扩散模型中图像尺寸问题：正在使用 扩散模型（Diffusion Model）进行图像增强，但你的图像原始尺寸是 400x600，而 U-Net 网络的输入要求是 256x256，如何实现？

最新发布

**My Coding Family**

05-24

784

🏆 本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到的各类Bug及其原因，并提供切实有效的解决方案。无论你是初学者还是经验丰富的开发者，本文将为你指引出一条更高效的Bug修复之路，助你早日登顶，迈向财富自由的梦想🚀！同时，欢迎大家关注、收藏、订阅本专栏，更多精彩内容正在持续更新中。让我们一起进步，Up！Up！Up！备注：部分问题/难题源自互联网，经过精心筛选和整理，结合数位十多年大厂实战经验资深大佬经验总结所得，数条可行方案供所需之人参考。

参与评论您还未登录，请先登录后发表或查看评论

Diffusion model—扩散模型

sunningzhzh的博客

06-13

2万+

文章目录摘要一、简介二、扩散过程2.1 定义扩散过程2.2 重参数技巧得到迭代公式2.3 得到全局扩散公式2.4 扩散过程实现代码2.4.1 总结扩散公式2.4.2 代码三、逆扩散过程3.1 目标公式3.2 后验条件概率四、优化目标4.1 损失函数公式推导4.2 损失函数代码实现五、算法流程5.1 模型训练代码5.2 模型采样代码5.3 训练好的模型效果摘要 The diffusion model is a generative model of the Encoder-Decoder architect

【深度学习】扩散模型（Diffusion Model）详解

Danger的博客

03-03

1万+

【深度学习】扩散模型（Diffusion Model）详解

深度学习系列（10）：扩散模型（Diffusion Model）详解

Azperk的博客

03-16

757

扩散模型（Diffusion Model）是一种生成模型，通过模拟数据从噪声分布到目标数据分布的扩散过程。与 GAN 和 VAE 等模型不同，扩散模型通过正向扩散过程和反向去扩散过程生成数据。扩散模型在图像生成领域表现出色，尤其是在生成质量上超过了传统生成对抗网络（GAN）。正向扩散过程：将数据逐步加噪，直到变成纯噪声。反向去扩散过程：通过去噪过程从噪声恢复数据。

【扩散模型】1、扩散模型 | 到底什么是扩散模型?

呆呆的猫的博客

03-11

2万+

本文简单介绍扩散模型

扩散模型（Diffusion Models）

weixin_42136827的博客

08-26

1946

扩散模型是一种基于随机过程的生成模型，灵感来源于物理学中的扩散过程，即有序结构逐渐转化为无序状态。在机器学习中，扩散模型用于生成高质量的数据（如图像、音频等）。其核心思想是通过一个可逆的随机过程，将数据从有序状态（如清晰图像）转化为无序状态（噪声），然后逆向该过程生成新数据。

【StableDiffusion】StableDiffusion 扩散模型的原理、UNet 结构解析、Encoder、CLIP Encoder -＞ Prompt Embedding（概览）

励志成为会前后端、运维、云服务、嵌入式开发、AI和自动化技术的创业小老板！

06-13

4081

其实，所谓的“点”，是从 572 * 572 * 1 变成了 32 * 32 * 1024，只是变小了，升维了而已经过卷积之后，才会变成高维的小图像，而不是一开始就是高维在图中，最开始的 Z 是一个格式为 572 \times 572 \times 1 的张量。这意味着 Z 是一个具有单通道（channel）的二维噪声图像。尽管它看起来是一个二维结构，但在扩散模型的上下文中，它仍然可以被理解为在一个高维空间中的点。高维空间的定义在机器学习和深度学习的上下文中，高维空间并不一定仅仅指向量的维数。

利用AI大模型，破解医疗数据困境_医疗ai大模型

2401_85377976的博客

07-25

1514

基础模型的发展和应用在医疗领域掀起了一阵浪潮，为高效诊疗等提供了新机会。在这一浪潮中，大规模医疗数据的收集、处理、分析等成为了至关重要的研究课题。为了解决医疗数据中长久存在的问题，包括数据量的缺乏、数据标注的高成本、多模态数据融合、数据隐私问题等，研究者们探索了基础模型带来的新解决方案。同时，在医疗领域应用基础模型的安全问题同样不容忽视。从基础模型的训练数据所导致的幻觉、偏见，到基础模型的监督管理，都是我们必须重视并解决的问题。

一文看遍AI行业大模型

mama19971023的博客

08-02

1013

通用大模型技术快速发展，但很多传统行业推进得并不快。对企业而言，大模型应用需要综合考虑专业性、数据安全、持续迭代和综合成本等多种因素。针对这些现实情况，腾讯集团提出重点发展行业大模型的理念。本文基于一线大量实践反馈，做出系统归纳总结，呈现行业大模型发展真实情况，厘清关键争议和困惑问题。真正解决用户需求、距离场景和数据更近的企业，将拥有大模型的未来。

万字长文剖析城市大模型：认知、应用、展望

Meimei9411的博客

07-27

1191

理想的，我们还是希望有一个政策知识库，它不是简单的一堆文本的文件夹，而是一个有知识结构的库，具备实时更新、智能检索、语义理解等功能。它通过自主学习，掌握了挖掘、建房屋、收集、打猎这些基本的生存技能，还通过自我驱动，不断探索着这个神奇的世界，去到不同的城市，路过一片片海洋，一座座金字塔，它甚至还会自己搭建传送门。广义的城市大模型的落地实施，需要行业主管部门进行顶层设计和统筹规划，以确保行业共性知识库的合规性，并推动建立一个可扩展、可协同的行业大模型技术架构，同时，探索可持续的运营与服务模式。

一文详解扩散模型

2401_84033492的博客

06-19

2600

2.1、统计学简介在统计学中，一切都是分布（Distribution），到处都是分布。统计学的根本目的就是获得数据分布。只要得到了数据的分布，那一切问题都迎刃而解。但现实数据的分布往往是不可得的，是极其复杂的，所以统计学在应用中到处充满假设：假设样本服从独立同分布原理；假设噪声服从高斯分布；假设特征之间相互独立等。翻开机器学习或者数理统计的书籍，到处充满着假设。没办法，现实问题太复杂！如何获得复杂的未知分布呢？最常用的方法就贝叶斯推断。2.2、贝叶斯推断贝叶斯推断的目的就是：找出复杂的未知分布。

【diffusion】扩散模型详解！理论＋代码

热门推荐

m0_63642362的博客

10-29

5万+

【diffusion】扩散模型详解！

【扩散模型】扩散模型思想及数学原理

qq_61144763的博客

04-26

2228

开启了扩散模型的理论深度研究和实践阶段，这不仅包括以DDPM为代表的连续性扩散模型也包括了离散型的扩散模型。数学上，扩散模型通常表示为一个参数化的马尔可夫链，它可以在有限时间内生成与训练数据匹配的样本。向训练样本中添加噪声（高斯噪声），然后反向该过程恢复数据，在这个过程中让模型学会消除噪声，从而实现从随机种子中生成高质量图像。对于训练集的每张照片，都能生成一系列噪声程度不同的加噪图片，这些噪声图+图上的噪声就是实际训练样本。，接受一系列加了噪声的图片，学习预测所加的噪声。组成的，也就是需要训练的。

详解Diffusion扩散模型：理论、架构与实现

TechLead

09-13

1690

本文深入探讨了Diffusion扩散模型的概念、架构设计与算法实现，详细解析了模型的前向与逆向过程、编码器与解码器的设计、网络结构与训练过程，结合PyTorch代码示例，提供全面的技术指导。

扩散模型（Diffusion Model，DDPM，GLIDE，DALLE2，Stable Diffusion）

nakaizura

09-05

2万+

实际上扩散模型和AE、VAE很类似，一个粗略的发展过程可以认为是AE–VAE–VQVAE–Diffusion，而扩散模型也逐步从DDPM–GLIDE–DALLE2–Stable Diffusion。随着最近DALLE2和stable diffusion的大火，扩散模型的出色表现丝毫不逊色VAE和GAN，已经形成生成领域的三大方向：VAE、GAN和Diffusion，如上图可以简要看出几类主线模型的区别。DALLE2的模型结构如上图，其中扩散模型是基于GLIDE的。可以轻松使用DDPM模型。

什么是扩散模型？

jianqimingtian的博客

01-07

957

扩散模型是学习反转扩散过程以生成数据的生成模型。从本质上讲，这些模型作为反向扩散现象运行，其中噪声以正向方式引入数据，并以反向方式去除以生成新的数据样本。通过学习反转这个过程，扩散模型从噪声开始，逐渐对其进行去噪，以产生与训练示例非常相似的数据。在训练过程中，模型学习预测在前进过程的每一步添加的噪声。和神经网络预测的噪声εθ.score 函数估计与噪声相关的数据分布的梯度，在指导反向过程方面起着至关重要的作用。是 noise schedule，这是一个小的正数，用于控制在每个步骤中添加的噪声量。

文生图算法原理：从扩散模型到Stable Diffusion

A2421417624的博客

03-26

4149

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。感兴趣的小伙伴，赠送全套AIGC学习资料和安装工具，包含AI绘画、AI人工智能等前沿科技教程，模型插件，具体看下方。

DDPM扩散模型（模型结构图与公式推导）

SoyMilk的博客

07-21

2513

去噪过程是加噪过程的逆过程，是从高斯噪声中恢复原始数据的过程，我们可以假设去噪的噪声也是取自一个高斯分布，我们无法逐步地去直接拟合分布，因此需要构建一个参数分布来去做估计，逆扩散过程仍然是一个马尔科夫链过程。

怎么运用DeepSeekR1模型的API建立属于生态环保领域的专业模型

02-22

<think>好的，用户现在问的是如何利用DeepSeek-R1模型的API来建立一个属于生态环保领域的专业模型。首先，我需要回顾之前的对话历史，用户之前询问过如何利用开放模型API建立自己的模型，当时我给出了详细的步骤，包括明确目标、选择API、数据准备、模型构建方法等。现在用户的问题更具体，针对的是DeepSeek-R1和生态环保领域。首先，我需要确认DeepSeek-R1模型的具体情况。根据之前的了解，DeepSeek可能是一个类似OpenAI的模型提供商，提供API接口。不过用户提到的DeepSeek-R1可能是一个特定的模型版本，需要假设它支持文本生成、问答等功能，可能支持微调或者提示工程。接下来，用户的需求是生态环保领域的专业模型。生态环保领域可能涉及气候分析、污染监测、环保政策咨询、物种识别等具体任务。需要明确用户的具体应用场景，比如是生成报告、数据分析，还是问答系统。但用户没有具体说明，可能需要建议常见的应用方向。根据之前的回答，构建模型的方案包括直接调用API、微调、混合架构等。但这里用户可能没有自有数据或计算资源进行微调，所以可能需要优先考虑提示工程和RAG（检索增强生成）方法，结合API调用。接下来需要考虑数据准备。生态环保领域可能需要专业的数据，如气候报告、环保政策文档、物种数据库等。如果用户有这些数据，可以通过API生成训练数据，或者构建知识库来增强模型的回答准确性。另外，需要注意DeepSeek-R1的API是否支持微调。如果支持，用户可以上传自己的数据进行模型微调，但需要检查API文档中的相关支持。如果不支持，可能需要依赖提示词工程和外部知识库。系统设计方面，可能需要构建一个处理用户查询的流程，包括利用API生成回答，再结合内部数据库进行验证或补充。例如，用户问及某地区的污染情况，系统先调用API生成初步分析，再检索最新的污染数据来修正结果。同时，还要考虑成本控制和数据隐私。生态环保数据可能涉及敏感的地理或监测数据，需要确保API调用的合规性，可能需要本地部署部分组件，或者进行数据脱敏处理。可能的挑战包括专业术语的处理，模型对最新环保政策的了解不足，需要RAG来补充最新信息。此外，评估模型效果需要领域专家的参与，确保生成的建议或分析准确可靠。最后，案例部分可以举例，比如构建一个环保问答助手，集成政策法规和实时数据，或者一个污染预测模型，结合API生成的分析和自有数据模型。需要确保回答结构清晰，步骤明确，覆盖从需求分析到部署监控的全流程，并针对生态环保领域的特点提供具体建议。</think>利用 **DeepSeek-R1 模型 API** 构建生态环保领域的专业模型，可以通过 **领域数据增强、任务定制化设计** 和 **混合架构集成** 实现。以下是具体步骤和案例： --- ### **1. 明确生态环保领域的具体需求** - **典型场景**： - **环境数据分析**：空气质量预测、污染物扩散模拟、碳排放计算。 - **政策与报告生成**：自动生成环保政策解读、生态评估报告。 - **问答系统**：回答生态保护技术、物种识别、污染治理方案等问题。 - **监测与预警**：结合传感器数据生成环境异常预警报告。 --- ### **2. 利用 DeepSeek-R1 API 的核心能力** - **基础功能调用**： - **文本生成**：生成环保报告草稿、政策建议。 - **问答与推理**：解答专业问题（如“如何处理重金属污染土壤？”）。 - **数据格式化**：将原始环境数据（如 CSV 表格）转换为结构化分析结果。 - **扩展能力**： - 结合 **检索增强生成（RAG）**：接入生态领域知识库（如 IPCC 报告、环保法规）。 - **多模态处理**：若支持图像输入，可分析卫星遥感图或污染现场照片。 --- ### **3. 数据准备与领域知识注入** #### **(1) 构建生态环保领域数据集** - **自有数据收集**： - 环保政策文档（如《巴黎协定》中文版、地方环保条例）。 - 环境监测数据（如 PM2.5 历史记录、水质检测报告）。 - 学术论文与案例（如生态修复技术论文、污染事件分析）。 - **利用 API 生成合成数据**： ```python # 示例：调用 DeepSeek-R1 生成环保问答对 prompt = "生成10个关于长江流域生态保护的问答对，包含问题和专业答案。" response = deepseek_api.generate(prompt, max_tokens=1000) ``` - **数据清洗**： - 标注关键实体（如污染物名称、物种学名、法规条款）。 - 去除非专业内容（如社交媒体噪音）。 #### **(2) 领域知识库构建（RAG 关键）** - 将以下内容向量化存储： - **专业数据库**：全球生物多样性数据库（GBIF）、中国环境统计年鉴。 - **实时数据**：接入环保部公开 API 获取最新监测数据。 - **领域术语表**：建立“碳汇”“生物修复”等术语的标准化解释。 --- ### **4. 模型定制化方案** #### **方案一：提示词工程（低成本快速启动）** - **设计专业提示模板**： ```text 你是一个生态环保专家，擅长长江流域生态修复。请根据以下监测数据生成报告： [输入水质pH值、溶解氧、重金属含量等数据] 要求： 1. 对比《地表水环境质量标准》(GB3838-2002)； 2. 指出超标污染物及潜在来源； 3. 提出3条修复建议。 ``` - **效果优化技巧**： - 在提示词中注入领域术语（如引用“碳中和 LULUCF 规则”）。 - 要求模型分步骤思考（Chain-of-Thought）。 #### **方案二：微调 DeepSeek-R1（需 API 支持）** - **步骤**： 1. **数据格式准备**：整理成 `{"instruction": "...", "input": "...", "output": "..."}` 格式的 JSON 文件。 2. **调用微调 API**（若提供）： ```python # 假设 API 支持微调接口（需确认） fine_tune_job = deepseek_api.fine_tune( training_data="eco_data.json", base_model="deepseek-r1", hyperparameters={"epochs": 3} ) ``` 3. **部署专属模型**：获得微调后的模型 ID（如 `deepseek-r1-eco-v1`）。 #### **方案三：混合架构（API + 自研模块）** - **示例：污染源追踪系统**： ```mermaid graph LR A[用户提问"某化工厂周边水质异常原因"] --> B{规则引擎} B -->|含化学名词| C[调用 DeepSeek-R1 生成假设] B -->|含数值数据| D[自研污染物扩散模型] C & D --> E[结果融合与验证] E --> F[生成最终报告] ``` --- ### **5. 系统实现与优化** #### **(1) 技术栈示例** - **前端**：Streamlit/微信小程序（用于环保人员提交数据）。 - **后端**： - 使用 `langchain` 框架集成 DeepSeek-R1 API 和 RAG。 - 向量数据库：ChromaDB/Pinecone（存储环保知识库）。 - **数据处理**：Apache Spark 实时分析物联网传感器数据。 #### **(2) 关键优化策略** - **动态上下文管理**： - 在对话中自动附加相关法规条款（如用户提到“碳排放”时，自动插入《碳排放权交易管理办法》摘要）。 - **可靠性增强**： - 对 API 输出结果进行双重验证： - **规则校验**：通过正则表达式匹配数值单位（如确保 PM2.5 单位为 μg/m³）。 - **专家审核接口**：关键结论提交至人工审核平台。 --- ### **6. 部署与持续迭代** - **低成本部署**： - 使用 Serverless 架构（如 AWS Lambda）按需调用 API。 - 对非实时任务（如年报生成）采用异步队列处理。 - **监控指标**： - **业务指标**：污染预测准确率、报告生成采纳率。 - **技术指标**：API 响应延迟、知识库检索命中率。 - **持续学习**： - 定期用新政策文件更新知识库（如生态环境部最新发文）。 - 收集用户反馈标注错误样本，用于模型迭代。 --- ### **案例参考** #### **案例 1：濒危物种保护助手** - **架构**： 1. 用户上传动物照片 → 自研 CV 模型识别物种。 2. 调用 DeepSeek-R1 API： - 输入：物种名称 + GPS 位置 - 输出：该物种保护等级、栖息地保护建议、关联法律法规。 - **数据增强**：用 API 生成虚拟物种分布问答用于训练 CV 模型。 #### **案例 2：碳交易咨询系统** - **流程**： - 用户输入企业生产数据 → 自研模型计算碳排放量。 - 调用 DeepSeek-R1： ```python prompt = f''' 根据以下碳数据生成交易建议： - 年度排放量: {emissions} 吨 - 行业类型: {industry} - 所在地: {location} 要求：参考《全国碳排放权交易市场建设方案》和近期市场均价。 ''' ``` --- ### **注意事项** 1. **数据合规**：避免通过 API 传输涉密环境监测数据。 2. **领域校准**：定期让环保专家评估输出结果的专业性。 3. **成本控制**：对批量报告生成类任务，优先使用异步调用+缓存。通过以上方法，可快速构建具备专业深度的环保领域模型，同时平衡开发成本与效果。