Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task01笔记

Flyinggg_love

已于 2024-08-07 14:41:49 修改

阅读量529

点赞数 15

文章标签：人工智能 AIGC 笔记深度学习 jupyter

于 2024-08-07 14:08:57 首次发布

本文链接：https://blog.csdn.net/xiaoyvhuv/article/details/140971351

版权

1. Diffusion Model(扩散模型)

2. LDMs（潜空间扩散模型）

3.LORA（Low-Rank Adaptation） ——轻量级微调方法

附：

DataWhale开源组织网站主页：Datawhale

DataWhaleAI夏令营第四期AIGC方向学习手册：Docs

赛事链接：可图Kolors-LoRA风格故事挑战赛_创新应用大赛_天池大赛-阿里云天池的赛制

分任务1：跑通baseline

第一步——搭建代码环境

1. 进入阿里云免费试用区，免费使用算力时：

阿里云社区https://free.aliyun.com/?spm=5176.14066474.J_4683019720.1.8646754cugXKWo&scm=20140722.M_988563._.V_1&productCode=learn

2. 登录or注册自己的阿里云账号：

3. 点击立即试用

领取成功之后关闭页面即可

4 .进入魔搭社区授权

魔搭社区https://www.modelscope.cn/my/mynotebook/authorization

第二步——报名赛事

可图Kolors-LoRA风格故事挑战赛https://tianchi.aliyun.com/competition/entrance/532254

第三步——在魔搭社区创建PAI实例

创建完成之后返回魔搭社区，如下图所示，就已经绑定好实例了：

点击打开，因为我这里点击打开没有反应，索性就使用了第二种方法——魔搭的免费notebook

那么实际上，可能是因为魔搭社区的流量限制，使得访问速度很慢，那么我们也可以通过阿里云官网进入实例，

step1:进入阿里云官网

Step2：进入控制台

step3:左侧栏中有DSW这个选择

step4:在这里点击打开，进入实例，速度比魔搭社区要快

总之，无论是从A,B还是C进入，都是为了进入我们的notebook实例中。

进入notebook之后，要先git下来我们的baseline文件,在哪git呢？？

需要进入我们的终端Terminal

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

然后就可以跟着教程一步一步进行baseline的运行了，注意，如果出现运行不成功的情况，可以restart一下。

至于运行，有两种方式，可以选中一个代码块，同时按下ctrl+enter,或者是点击左边的运行键。

运行成功之后左边会出现绿色的小对号，即代表我们运行成功了这个代码块。

这是我运行完全部代码块后，最终的部分效果：

在赛事官网提交相关信息：

魔搭社区-创建模型

分任务2：相关知识学习以及赛题理解

赛题理解：

事实上，我们的赛题作出了以下几点要求：

1	要求基于LoRA模型生成 8 张图片组成连贯故事，故事内容可自定义；基于8图故事，评估LoRA风格的美感度及连贯性
2	参赛者可以根据自己审美，任意选择自己喜欢的文生图风格，例如水墨风、国风、日漫风等。
3	要求参赛者在赛事官网提交微调后的LoRA 模型文件、LORA 模型的介绍、以及使用该模型生成的至少8张图片和对应 prompt
4	美学分数仅作评价提交是否有效的标准，其中美学分数小于6（阈值可能根据比赛的实际情况调整，解释权归主办方所有）的提交被视为无效提交，无法参与主观评分。

我们需要注意的是，必须保证我们的美学分数高于6，这样我们的作品才能视为有效作品，可以使用以下代码进行美学评分。


import torch, os
from PIL import Image
from transformers import CLIPProcessor
from aesthetics_predictor import AestheticsPredictorV2Linear
from modelscope import snapshot_download


model_id = snapshot_download('AI-ModelScope/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE', cache_dir="models/")
predictor = AestheticsPredictorV2Linear.from_pretrained(model_id)
processor = CLIPProcessor.from_pretrained(model_id)
device = "cuda"
predictor = predictor.to(device)


def get_aesthetics_score(image):
    inputs = processor(images=image, return_tensors="pt")
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        outputs = predictor(**inputs)
    prediction = outputs.logits
    return prediction.tolist()[0][0]


def evaluate(folder):
    scores = []
    for file_name in os.listdir(folder):
        if os.path.isfile(os.path.join(folder, file_name)):
            image = Image.open(os.path.join(folder, file_name))
            scores.append(get_aesthetics_score(image))
    if len(scores) == 0:
        return 0
    else:
        return sum(scores) / len(scores)


score = evaluate("./images")
print(score)

文生图基本认识：

提到文生图，我脑海中蹦出的第一个词就是Stable Diffusion（稳定扩散）

Stable Diffusion是文生图技术的一种实现，它是一种基于Latent Diffusion Models（LDMs）实现的文生图（text-to-image）算法模型，通过模拟物理世界中的扩散过程，将噪声逐渐转化为具有特定结构和纹理的图像。

这里的LDMs，则是在DM（Diffusion Model，扩散模型）基础上发展起来的。

与传统的图像生成方法相比，Stable Diffusion具有更高的灵活性和可扩展性，能够生成更加真实、细腻的图像。在训练过程中，Stable Diffusion使用深度学习技术，通过大量的图像数据来优化模型的参数，利用卷积神经网络（CNN）提取图像特征，并通过扩散模型生成具有这些特征的图像。

相信大家应该捕捉到了一些关键字眼：比如DM，LDMs ，这是SD的基本原理。

1. Diffusion Model(扩散模型)

从技术角度来看，AI绘画热潮的兴起要归功于扩散模型的引入。然而，作为一项早在2015年于国际机器学习会议（ICML）上提出的理论构想，其初现并未引起广泛的关注。

直至2020年6月，来自加州大学伯克利分校的一篇题为DDPM（去噪扩散概率模型）的论文，在更加庞大的数据集上展现出与当时最优的生成对抗网络（GAN）模型相媲美的性能，研究人员方才逐渐领悟到扩散模型在内容创作领域所蕴藏的威力与前景。

此后，不同国家的研究人员一直在进行着不断地探索，而他的真正出圈，是由于OpenAI 2022年发布的DALLE-2，其呈现出的前所未有的理解和创造能力，加之OpenAI 公司的开放API，使得文生图技术彻底走向大众视野。

DM『扩散模型』工作原理：通过向原始图像中，连续添加高斯噪声来破坏训练数据，然后通过反转这个噪声过程，来学习恢复数据。简单来说，包含两个过程：「前向扩散」和「逆向扩散」。
1）前向扩散：前向扩散过程是不断往输入图片中添加高斯噪声，直到原图像模糊；
2）逆向扩散；反向（逆向）扩散过程是将噪声不断还原为原始图片，这一举措会得到一个【模型】（令为模型A），这个模型训练并稳定下来，就能实现在线预测了，即给模型一个文本提示或原始图像，它就能基于这个模型生成另一幅图像。