阿里最新开源中文文生图模型-秒笔,与SD1.5同结构,兼容lora、controlnet等主流插件

今天向大家介绍阿里刚开源的一个中文文生图模型-妙笔,与经典的stable-diffusion 1.5版本拥有一致的结构,兼容现有的lora,controlnet,T2I-Adapter等主流插件及其权重。

秒笔直接输入中文就可以完成文生图操作,使用起来非常便捷,生图的效果也十分逼真。

比如输入“枯藤老树昏鸦,小桥流水人家。水墨画。”来看秒笔生成结果。可以看出秒笔很好的表达出来诗句中的意思并生成了诗中的内容。

再比如输入“极具真实感的复杂农村的老人肖像,黑白。”

可以看出生成的人像具有很好的完整性和真实感,以往生图模型在生成人像方面的缺点在这也都完成的很好。

项目地址

https://github.com/ShineChen1024/MiaoBi

安装运行

1.克隆项目

git clone https://github.com/ShineChen1024/MiaoBi.git

2.创建虚拟环境并安装所需要的包

conda create -n MiaoBi-SD python==3.10
conda activate MiaoBi-SD
pip install torch==2.0.1 torchvision==0.15.2 numpy==1.25.1 diffusers==0.25.1 opencv-python==4.8.0  transformers==4.31.0 accelerate==0.21.0
  

3.下载模型

从Huggingface下载权重,并把它放在检查点文件夹。

MiaoBi checkpoints下载链接

Diffuser使用

from diffusers import StableDiffusionPipeline
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("checkpoints/miaobi_beta0.9/tokenizer",  trust_remote_code=True)
pipe = StableDiffusionPipeline.from_pretrained("checkpoints/miaobi_beta0.9")

pipe.to("cuda")
prompt = "一只穿着铠甲的猫"
image = pipe(prompt).images[0]
image.save("铠甲猫.png")

模型推理

python demo

python miaobi_generate.py

controlnet demo

python miaobi_controlnet.py

中文生图示例

一只精致的陶瓷猫咪雕像,全身绘有精美的传统花纹,眼睛仿佛会发光。

动漫风格的风景画,有山脉、湖泊,也有繁华的小镇子,色彩鲜艳,光影效果明显。

车水马龙的上海街道,春节,舞龙舞狮。

局限性

妙笔的训练数据包含Laion-5B中的中文子集(经过清洗过滤),Midjourney相关的开源数据(将英文提示词翻译成中文),以及收集的一批数十万的caption数据。

由于整个数据集大量缺少成语与古诗词数据,所以对成语与古诗词的理解可能存在偏差,对中国的名胜地标建筑数据的缺少以及大量的英译中数据,可能会导致出现一些对象的混乱。

妙笔Beta0.9在8张4090显卡上完成训练,目前也在拓展机器资源来训练SDXL来获得更优的结果,期待后续的更新,在线催更ing。

感谢你看到这里,也欢迎点击关注下方公众号或者关注本公众号的官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

公众号二维码

公众号二维码

AIGC微信交流群

AIGC微信交流群

<think>好的,用户对使用Stable Diffusion、ComfyUI、DeepSeek以及开源大模型LoRA模型来打造虚拟偶像的方案感兴趣,需要详细的执行策略和方案。首先,我需要确定用户的技术背景,可能需要从基础工具介绍开始。然后,按照文生生视频的路径分步骤规划。 用户可能已经了解一些工具,但为了全面性,还是需要简要说明每个工具的作用,比如Stable Diffusion用于生成像,ComfyUI作为更灵活的界面,DeepSeek可能用于文本生成或其他部分。LoRA模型的应用需要解释如何微调模型以适应特定风格。 接下来,执行策略需要分阶段:前期准备、核心流程、进阶优化。前期准备包括硬件需求、软件安装、模型选择。核心流程分文生生视频,每个步骤需要详细参数设置和示例。进阶优化可能涉及LoRA训练、多模型融合、迭代优化。 需要注意用户可能对技术细节不熟悉,比如LoRA的训练步骤,需要给出具体的数据准备和训练命令示例。时,视频生成部分可能涉及帧一致性,需要推荐工具和技巧。 还要考虑用户的实际操作中可能遇到的问题,比如硬件不足,可能需要推荐云服务。另外,版权问题需要提醒使用合规数据集。 最后,确保整个方案结构清晰,步骤明确,用户能逐步跟随操作。可能需要检查每个工具的兼容性,确保流程可行。总结部分要强调持续迭代和社区资源的重要性,帮助用户长期维护虚拟偶像项目。</think>以下是为您规划的虚拟偶像孵化专业执行策略方案(工具链:Stable Diffusion + ComfyUI + DeepSeek + LoRA): 一、前期准备阶段 $$ \text{硬件配置} \geq 1 \times RTX3090, \quad \text{显存} \geq 16GB, \quad \text{存储空间} \geq 500GB $$ 1. 软件环境搭建: - 安装Stable Diffusion WebUI(推荐v1.8+) - 部署ComfyUI可视化节点系统 - 配置DeepSeek-7B开源大模型环境 - 准备NSFW检测模块(确保内容合规) 2. 模型资源库建设: ```markdown | 模型类型 | 推荐模型 | 应用场景 | |----------------|-----------------------------------|---------------------| | 基础大模型 | SDXL 1.0/Realistic Vision 5.1 | 主体生成 | | LoRA模型 | KoreanDollLikeness/JapaneseStyle | 风格微调 | | 控制网 | OpenPose/Depth | 姿势控制 | | 视频模型 | AnimateDiff-Lightning | 视频生成 | ``` 二、核心执行流程 (一)文生阶段(Text-to-Image) $$ prompt = \alpha \cdot [主体描述] + \beta \cdot [风格参数] + \gamma \cdot [质量参数] $$ 1. 使用DeepSeek生成描述词: ```python from deepseek import generate prompt = generate("18岁赛博朋克风格虚拟偶像,霓虹发色,机械义肢,未来感服装") ``` 2. Stable Diffusion参数设置: ```yaml sampler: DPM++ 2M Karras steps: 28-35 cfg scale: 7-9 hires.fix: 4x-UltraSharp upscaler ``` 3. ComfyUI节点配置: ```mermaid graph LR A[文本输入] --> B[CLIP编码] B --> C[基础模型] C --> D[LoRA注入] D --> E[ControlNet约束] E --> F[高分辨率修复] ``` (二)阶段(Img2Img) $$ I_{output} = f(I_{input}, \Delta_{prompt}, \eta_{denoise}) $$ 1. 迭代优化流程: - 初始生成 → OpenPose提取骨架 → 重绘非结构部分 - 使用InPaint修复细节(推荐lama处理器) - 多视生成(Front/Side/Back)确保三维一致性 2. 关键参数设置: ```python denoising_strength = 0.35-0.6 # 保持主体稳定 mask_blur = 4-8 # 边缘过渡自然 ``` (三)生视频阶段(Img2Video) $$ V_{output} = \sum_{t=1}^{n} \phi(I_t, M_{motion}) $$ 1. 使用AnimateDiff流程: ```python from animatediff import pipeline pipe = pipeline("sd-v1-5", motion_module="mm_sd_v15_v2") frames = pipe(prompt, init_image, num_frames=24) ``` 2. 视频优化技巧: - 添加TemporalNet保持时序一致性 - 使用EBsynth进行风格插值 - 最后用DAIN进行60fps插帧 三、进阶优化方案 (一)LoRA模型训练 $$ \theta_{new} = \theta_{base} + \Delta\theta_{LoRA} $$ 1. 数据集准备: - 收集200+张统一风格- 使用WD1.4打标工具自动标注 - 分辨率标准化为1024x1024 2. 训练命令示例: ```bash accelerate launch train_dreambooth_lora.py --pretrained_model_name="stabilityai/stable-diffusion-xl-base-1.0" --instance_data_dir="/path/to/images" --output_dir="/save/lora" ``` (二)多模型融合策略 $$ I_{final} = \omega_1M_{base} + \omega_2M_{style} + \omega_3M_{detail} $$ 1. 分层控制技巧: - Base Model权重0.7 + Style LoRA 0.3 - 使用Regional Prompter分区域控制 - 通过IP-Adapter实现参考特征注入 四、执行路线 ```gantt title 虚拟偶像开发周期 section 基础建设 硬件配置 :done, des1, 2024-03-01, 7d 模型收集 :active, des2, 2024-03-08, 5d section 核心开发 角色原型设计 : des3, 2024-03-13, 14d 视频动态化 : des4, 2024-03-27, 21d section 优化迭代 表情控制系统 : des5, 2024-04-17, 14d 多语言适配 : des6, 2024-05-01, 14d ``` 五、风险控制方案 1. 版权合规: - 使用CC0/LAION数据集 - 添加数字水印(推荐InvisibleWatermark) 2. 质量保障: - 建立自动化评估体系(CLIP score ≥ 28) - 人工审核三审机制 建议每周进行模型微调迭代,持续收集用户反馈数据优化prompt engineering。可通过CivitAI等平台获取最新模型资源,时建议建立本地知识库保存优质工作流配置。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIGC Studio

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值