AIGC方向 第四期 task03 笔记
ComfyUI
其是GUI的一种,而GUI是我们在电脑屏幕上看到的那种有图标,按钮和菜单的交互方式
核心模块
- 模型加载器:LoadCheckpoint用于加载基础的模型文件,包含了Model,CLIP,VAE三部分
- VAE(变分自编码器)是一种生成模型,结合了深度学习和概率模型,在图像生成等多个领域有广泛的应用。
- CLIP(多模态预训练神经网络)旨在通过预训练提升计算机视觉和自然语言处理的能力,其核心思想是利用大量图像和文本的配对训练进行预训练,以学习图像和文本之间的对齐关系。
- 提示词管理器
- 采样器:用于控制模型生成图像,不同的采样取值会影响最终输出图像的质量和多样性
- 解码器
图片生成流程
- 选择模型:从可用的AI模型列表中选择合适模型
- 构建工作流:在ComfyUI的图形界面上拖拽节点,并将它们连接起来
- 执行生成
- 调整和优化:可以进行微调以获得满意的效果
Stable Diffusion
基于人工智能技术的模型,主要用于根据文本描述生成高分辨率,高逼真度的图像。展示了多模态领域中如何通过深度学习将文字信息转化为视觉内容和的前沿技术。
三个主要组件
- 扩散模型
- 文本编码器
- 去噪模型
Lora
微调原理
LoRA通过在预训练模型的关键层中添加低秩矩阵来实现。这些低秩矩阵通常被设计成具有较低维度的参数空间,这样它们就可以在不改变模型整体结构的情况下进行微调。在训练过程中,只有这些新增的低秩矩阵被更新,而原始模型的大部分权重保持不变。
微调优势
快速适应新任务 | 保持泛化能力 | 资源效率 |
---|---|---|
在特定领域有少量标注数据的情况下,也可以有效地对模型进行个性化调整,可以迅速适应新的领域或特定任务。 | LoRA通过微调模型的一部分,有助于保持模型在未见过的数据上的泛化能力,同时还能学习到特定任务的知识。 | LoRA旨在通过仅微调模型的部分权重,而不是整个模型,从而减少所需的计算资源和存储空间。 |