AI夏令营 AIGC方向 魔塔

AIGC方向 第四期 task02 笔记

背景导入

现如今AI生图则是其中最早被大众所熟知并广泛被认可的AIGC领域,但其迅猛的发展也对现实生活产生了负面的影响。
各种离奇搞怪的图片层出不穷,甚至还能传递虚假信息,虚假新闻,造成民众恐慌等负面影响。
有一项特别需要注意的技术叫做Deepfake技术,它是由人工智能技术生成的一种伪造媒体,看起来十分真实,但实际上是虚拟的,由计算机生成的,我们在日常生活中要学会辨别这项技术,以免上当受骗

Deepfake(深度伪造)

被称作“生成式对抗网路”(GAN)的机器学习模型将图片或视频合并并叠加到源图片或视频,借助神经网络技术进行大样本学习,将个人的声音,面部表情及身体动作拼接合成虚假内容的人工智能技术。
其最常见方式是AI换脸技术,此外还包括语音模拟,人脸合成,视频生成等。

通义千问

分析代码逻辑框架

下面是AI的回答

这段代码可以分为几个主要的工作流程部分:

1. 安装和配置依赖

  • 安装Python包
    • simple-aesthetics-predictordata-juicerpeftlightningpandastorchvision
    • 卸载并重新安装pytorch-lightning
    • 安装DiffSynth-Studio

2. 数据集准备与处理

  • 加载数据集
    • 使用MsDatasetAI-ModelScope/lowres_anime加载训练数据集。
  • 创建图像文件和元数据文件
    • 将数据集中的图像转换为RGB模式,并保存到指定目录。
    • 创建包含图像路径和文本标签的元数据文件metadata.jsonl
  • 数据过滤与处理
    • 配置data-juicer来过滤不符合要求的数据(例如宽度和高度小于1024像素的图像,或宽高比不在0.5到2之间的图像)。
    • 使用dj-process命令行工具执行数据过滤。

3. 构建DataFrame并进行CLIP模型评估

  • 读取处理后的数据
    • 从经过data-juicer处理的输出文件result.jsonl中读取数据,并构建Pandas DataFrame。
  • 使用CLIP模型计算相似度
    • 加载预训练的CLIP模型和处理器。
    • 对DataFrame中的图像和文本使用CLIP模型计算相似度得分。
  • 创建自定义数据集类
    • 定义一个CustomDataset类,用于构建PyTorch数据集,便于后续处理。

4. 使用Stable Diffusion生成图像

  • 加载Stable Diffusion模型
    • 使用StableDiffusionPipeline加载预训练模型。
  • 生成图像
    • 根据不同的提示(prompt)和负面提示(negative prompt),使用Stable Diffusion生成一系列图像,并保存到文件系统。

5. 合并生成的图像

  • 合并图像
    • 读取之前生成的单个图像文件。
    • 将这些图像拼接成一张大图,并调整大小。

以上是整个代码的主要工作流程。需要注意的是,这段代码包含了多个步骤,从环境设置到最终图像生成,每一步都紧密相关,共同完成了一个完整的任务。

逐行解释代码

第一部分:安装和卸载Python包

  • !pip install simple-aesthetics-predictor: 安装simple-aesthetics-predictor包。
  • !pip install -v -e data-juicer: 安装data-juicer包,并使其可编辑(editable)。
  • !pip uninstall pytorch-lightning -y: 卸载pytorch-lightning包。
  • !pip install peft lightning pandas torchvision: 安装peftlightningpandastorchvision包。
  • !pip install -e DiffSynth-Studio: 安装DiffSynth-Studio包,并使其可编辑。

第二部分:加载和处理数据集

  • from modelscope.msdatasets import MsDataset: 导入ModelScope的数据集模块。
  • ds = MsDataset.load('AI-ModelScope/lowres_anime', subset_name='default', split='train', cache_dir="/mnt/workspace/kolors/data"): 加载名为lowres_anime的数据集,选择默认子集和训练集,缓存目录设为/mnt/workspace/kolors/data

第三部分:创建图像文件和元数据文件

  • import json, os: 导入jsonos模块。
  • from data_juicer.utils.mm_utils import SpecialTokens: 导入SpecialTokens类。
  • from tqdm import tqdm: 导入tqdm模块用于进度条显示。
  • os.makedirs("./data/lora_dataset/train", exist_ok=True): 创建目录./data/lora_dataset/train,如果已存在则不报错。
  • os.makedirs("./data/data-juicer/input", exist_ok=True): 创建目录./data/data-juicer/input
  • with open("./data/data-juicer/input/metadata.jsonl", "w") as f: 打开文件./data/data-juicer/input/metadata.jsonl用于写入。
  • 循环遍历数据集ds,将每个图像转换为RGB模式,并保存到/mnt/workspace/kolors/data/lora_dataset/train/
  • 将图像文件路径和对应的文本标签写入metadata.jsonl文件。

第四部分:配置和运行data-juicer

  • data_juicer_config: 定义了data-juicer的配置字符串。
  • with open("data/data-juicer/data_juicer_config.yaml", "w") as file: 写入配置文件data/data-juicer/data_juicer_config.yaml
  • !dj-process --config data/data-juicer/data_juicer_config.yaml: 运行data-juicer对数据进行处理。

第五部分:处理处理后的数据

  • import pandas as pd: 导入pandas模块。
  • 创建目录./data/data-juicer/output/images
  • 读取处理后的数据./data/data-juicer/output/result.jsonl,将文本和图像文件名分别存储到列表textsfile_names中。
  • 创建一个DataFramedf,包括textfile_name两列,并将其保存为CSV文件./data/data-juicer/output/result.csv

第六部分:使用CLIP模型计算图像和文本相似度

  • from transformers import CLIPProcessor, CLIPModel: 导入CLIPProcessorCLIPModel
  • 加载预训练的CLIP模型和处理器。
  • 使用CLIP模型计算DataFrame中的图像和文本的相似度得分。

第七部分:创建自定义数据集类

  • class CustomDataset(Dataset): 定义一个继承自Dataset的自定义数据集类。
  • 实现__init__, __len__, 和 __getitem__方法。
  • 创建CustomDataset实例,并使用DataLoader进行批处理。

第八部分:使用Stable Diffusion生成图像

  • import torch: 导入torch模块。
  • from diffusers import StableDiffusionPipeline: 导入StableDiffusionPipeline
  • 加载Stable Diffusion模型。
  • 使用不同的提示和负面提示生成图像,并保存到文件系统。

第九部分:合并生成的图像

  • import numpy as np: 导入numpy模块。
  • 读取之前生成的单个图像文件,并将其转换为NumPy数组。
  • 拼接这些图像为一个大的图像,并调整其大小。

这段代码涵盖了数据集的加载、处理、使用CLIP模型计算相似度、使用Stable Diffusion生成图像以及最后将生成的图像合并成一张大图的过程。

生图提示词

我通过询问AI并不断打磨,得到了我自己的生图提示词

图片编号场景描述正向提示词反向提示词
图片1男主在骑车一个年轻的男子穿着休闲运动装,戴着棒球帽,骑着一辆现代自行车在城市公园的小道上,全身,背景是绿树成荫的公园小路。丑陋,变形,嘈杂,模糊,低对比度
图片2看到美丽的晚霞停了下来一个年轻的男子站在一条安静的街道上,眺望着天边绚烂的晚霞,上半身,穿着T恤和牛仔裤,背景是城市的天际线与晚霞。丑陋,变形,嘈杂,模糊,低对比度
图片3拿出相机拍照一个年轻的男子手持一台现代相机,正在准备拍摄晚霞,上半身,穿着T恤和牛仔裤,背景是晚霞映照下的街道。丑陋,变形,嘈杂,模糊,低对比度
图片4欣赏晚霞一个年轻的男子坐在长椅上,注视着天边的晚霞,上半身,穿着T恤和牛仔裤,背景是公园里的长椅和晚霞。丑陋,变形,嘈杂,模糊,低对比度
图片5戴上耳机听歌一个年轻的男子戴着耳机,闭眼聆听音乐,上半身,穿着T恤和牛仔裤,背景是公园的草地。丑陋,变形,嘈杂,模糊,低对比度
图片6天黑了,骑车回家一个年轻的男子穿着休闲运动装,戴着棒球帽,骑着自行车在夜晚的城市街道上,全身,背景是灯火通明的城市街道。丑陋,变形,嘈杂,模糊,低对比度
图片7到家欣赏自己拍的照片一个年轻的男子坐在书桌前,手里拿着一张照片,专注地看着,上半身,穿着T恤和牛仔裤,背景是书桌和挂墙的照片。丑陋,变形,嘈杂,模糊,低对比度
图片8把拍的照片发朋友圈一个年轻的男子坐在窗边,手持手机准备发布照片,上半身,穿着T恤和牛仔裤,背景是房间内的一角和窗外的城市夜景。丑陋,变形,嘈杂,模糊,低对比度

结果部分展示

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 16
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: CocosCreator是一款功能强大的游戏开发引擎,而魔塔游戏源码则是指使用CocosCreator开发的一款魔塔类游戏的源代码。 CocosCreator魔塔游戏源码通常包含游戏的各个模块,包括角色控制、战斗系统、地图生成以及游戏UI等。在这个源码中,开发者可以看到一套完整的魔塔游戏框架和逻辑。 角色控制是魔塔游戏源码中的重要部分。开发者可以看到玩家角色的移动、攻击以及技能释放等代码。通过阅读源码,开发者可以了解到游戏角色的行为逻辑,比如怪物移动的规则、装备系统的实现等。 另外,战斗系统是魔塔游戏源码中的关键内容。开发者可以通过查看源码,了解到游戏的攻击和防御计算方式、技能释放和效果表现等细节。这对于学习游戏战斗系统的设计与实现非常有帮助。 地图生成也是源码中的一个重要模块。通过阅读源码,开发者可以了解到地图生成的算法、随机事件的处理、宝箱、商店等游戏元素的放置和生成等细节。 游戏的UI设计也是魔塔游戏源码中不可缺少的一部分。开发者可以通过查看源码,了解到游戏UI的布局、按钮点击事件的处理、弹窗的实现等细节。 总之,通过研究CocosCreator魔塔游戏源码,开发者可以学习到游戏开发中常用的算法和设计思路,同时也可以培养自己的开发能力和创造力。在学习和借鉴源码的基础上,开发者还可以根据自身需求进行二次开发和优化,创作出属于自己的魔塔游戏作品。 ### 回答2: CocosCreator魔塔游戏源码是指使用CocosCreator开发的魔塔类游戏的程序代码。CocosCreator是一款基于Javascript的游戏开发引擎,通过它可以轻松创建多平台的游戏。 魔塔游戏源码通常包含了游戏的一些基本组成部分,如场景、角色、道具、怪物等。它们通过CocosCreator的节点和组件系统进行组织和管理。在源码中,开发者可以了解到游戏的逻辑、界面设计以及各个功能模块的实现方式。 通过使用CocosCreator魔塔游戏源码,开发者可以学习到如何实现一个完整的魔塔游戏。他们可以了解到游戏场景的搭建,通过编辑器创建地图和设置场景元素。他们可以学习到如何处理游戏角色的移动、攻击和受伤等操作,并实现相应的动画效果。另外,他们还可以了解到如何处理游戏道具的使用和怪物的生成与AI行为等。 魔塔游戏源码可以帮助开发者迅速上手游戏开发,节省大量的开发时间。通过对源码的学习和理解,开发者可以根据自己的需要进行二次开发和扩展,实现独具创意的魔塔游戏。 ### 回答3: CocosCreator魔塔游戏源码是基于CocosCreator游戏引擎开发的一种魔塔类游戏的代码。魔塔游戏是一种以策略和冒险为主题的角色扮演游戏,玩家需要在迷宫中探索、寻找宝物、打败敌人,最终达到最深层并击败最终BOSS。 CocosCreator魔塔游戏源码包含了游戏的基本逻辑、界面设计、角色控制、敌人AI、道具系统等各个方面的代码实现。通过阅读源码,我们可以了解到游戏是如何实现地图的生成与呈现、角色的移动和战斗、敌人的行为规则、道具的获取和使用等功能。同时,源码还提供了一些基本的游戏美术资源,如角色、地图瓷砖、敌人等,可以用于快速搭建游戏。 在实际使用源码的时候,我们可以根据自己的需求进行修改和扩展,比如添加新的关卡、设计新的敌人、增加新的道具等。同时,我们也可以根据源码学习到CocosCreator游戏开发的一些基本技巧与规范,例如场景管理、碰撞检测、UI设计等。 总之,CocosCreator魔塔游戏源码是一个可以让我们了解和学习魔塔类游戏开发的实际案例,可以通过对源码的学习和修改,快速搭建自己的游戏项目,并且还可以帮助我们掌握CocosCreator游戏引擎的使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值