文生图模型进化简史和生成能力比较——艺术肖像篇

这篇博客回顾了文生图模型从CLIP的诞生到SDXL1.0的发展历程,重点介绍了关键模型如Disco Diffusion、Glide、Latent Diffusion、DALL·E 2、Stable Diffusion等的进展。作者通过比较不同模型在艺术肖像画的生成效果,展示了AI在艺术创作中的进步,同时提到了LoRA和ControlNet如何增强模型的可控性和表现力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

很久没有更新文章,最近真的太忙啦1dbce373fad2630aff48fdf6332bcf38.png,在T2I领域,学习速度真的赶不上进化速度!每天都有无数新模型、新插件、新玩法涌现。玩得太上瘾啦。

上月初我去参加我硕士专业的夏季烧烤大趴,跟我的论文导师重逢(好多年没见啦)。他今年也赶风头开课讲授 Generative AI 与商业创新的结合。不过他的课主要讲的是LLM,听说我在玩T2I,就邀请我回母校的商学院做了个分享。我为那次分享做了个简单时间线,罗列了我认为文生图领域至关重要的里程碑(基于扩散模型)。

d7ad041767c3607b526cc61c9ce0c249.png

时间轴的上排是闭源相关,下排是开源相关

这个领域的一切都始于 CLIP 开源,CLIP 是一个通过自然语言监督有效地学习视觉概念的神经网络。通过使用 CLIP 可将文本和图像连接在一起。

CLIP 的全称是 Contrastive Language–Image Pre-training,也就是文本和图像对照的预训练模型,数据集使用的是 LAION-400M,包含 4 亿组从互联网上收集的 文本-图像对。文本编码器提取文本特征,图像编码器提取图像特征,两个放到一起对比相似度,从而让 AI “掌握” 文本-图像 的匹配关系。

21 年 1 月 CLIP 发布后(与 CLIP 一起发布的还有 DALL·E 第一代文生图模型,生成能力有限),基于它的各种文生图模型相继出现,Disco Diffusion 也是在这个时候诞生,此时它们的生成效果都并不理想,但社区对未来充满了憧憬。

21 年 12 月,OpenAI 发布了 Glide,即 Guided Language-to-Image Diffusion,它是 DALLE 2 的基础。同一个月,慕尼黑大学 Compvis 实验室发布了 Latent Diffusion 的论文 High-Resolution Image Synthesis with Latent Diffusion Models,它是生成能力实现重大突破基础。

基于 Glide 的论文和各种探索,T2I 开源社区开启了 Disco Diffusion 项目,22 年 3 月 Disco Diffusion v5 发布,这是图像生成模型第一次出圈引爆,吹响了打开 AI 艺术大门的号角,魔法由此开始释放。

同一个月,Midjourney 通过包装使用 Disco Diffusion,进行了商业应用。

22 年 4 月,OpenAI 发布了 DALL·E 2。它的生成能力有了较大提升,但光芒很快就会被掩盖。

为了与 OpenAI 竞争,Google在22 年 5 月和 6 月发布了 ImagenParti 的论文,但一直没有公开发布过产品,极少有人真正体验过这两个 SOTA 模型,Google 保持着其在ML研究领域高调发paper但绝不ship任何产品的姿态,在T2I领域同样也起大早赶晚集,最后甚至压根就没现身。

真正的转折点来了,22 年 8 月发布的 Stable Diffusion 1.5,由 Stability AI 与慕尼黑大学 Compvis 实验室合作训练完成。它的光芒很快盖过了其他模型,加之后来的 LoRA 和 ControlNet 如虎添翼,构建了庞大的 SD 生态。

同月,谷歌发布了 Dreambooth 的论文 DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation。对自家的T2I 预训模型(也就是前文提到的Imagen,当然这个技术也可以应用于其它扩散模型)进行微调,使其学会将某 identifier与该特定主题绑定。只要输入少量该主题的图片用于训练(通常3-5张),就可让模型能用该 identifier 生成该主题的在不同背景下演绎的个性化图像。比如把"xiqiao_meowmeow"与一些我的脸图绑定后训练,就能用xiqiao_meowmeow 生成出我在画漫画的结果,即使训练素材里只包含了我的脸。

22 年 11 月 Midjourney v4 发布,它的生成能力和艺术感惊人,使其一举奠定了MJ 作为商业闭源模型无法撼动的王者地位。

23 年1 月,LoRA 诞生,"它并不改变原模型的权重,而是在线性层旁边新增一个下采样-上采样的支路,通过训练这个支路来完成微调。因此,同一个基底 SD 模型可以搭载不同的 LoRA 使用,具有很高的灵活性。由于 LoRA 支路网络的参数量小,相比微调整个模型,对算力的需求更加友好,并且也能达到不错的效果,因此很快受到大家的热烈欢迎,成为了目前最流行的微调 SD 的方法之一。"  
https://zhuanlan.zhihu.com/p/640144661

2 月,这个领域的天才人物张吕敏发布 ControlNet。它的出现代表着 T2I 生成开始真正变得可控,能够成为真正的生产力工具。ControlNet 比之前 img2img 提供了更丰富更准确的控制方式,可以直接提取 input 画面的边缘、深度、语义分隔、深度信息,以及人物的姿势等。精确控制AI 生成完美的手势和正确的手指再也不是问题。

3 月 Adobe 发布了 Firefly,将生成式 AI 集成到自己的产品 Photoshop Beta 以及面向普通人的 Express 中,正式加入这张大战。Adobe 在自家拳头产品里的深度集成(碾压了所有第三方插件)以及我烧得起钱你随便用的战略,使其在AI图像

智能网联汽车的安全员高级考试涉及多个方面的专业知识,包括但不限于自动驾驶技术原理、车辆传感器融合、网络安全防护以及法律法规等内容。以下是针对该主题的一些核心知识解析: ### 关于智能网联车安全员高级考试的核心内容 #### 1. 自动驾驶分级标准 国际自动机工程师学会(SAE International)定义了六个级别的自动驾驶等级,从L0到L5[^1]。其中,L3及以上级别需要安全员具备更高的应急处理能力。 #### 2. 车辆感知系统的组成与功能 智能网联车通常配备多种传感器,如激光雷达、毫米波雷达、摄像头和超声波传感器等。这些设备协同工作以实现环境感知、障碍物检测等功能[^2]。 #### 3. 数据通信与网络安全 智能网联车依赖V2X(Vehicle-to-Everything)技术进行数据交换,在此过程中需防范潜在的网络攻击风险,例如中间人攻击或恶意软件入侵[^3]。 #### 4. 法律法规要求 不同国家和地区对于无人驾驶测试及运营有着严格的规定,考生应熟悉当地交通法典中有关自动化驾驶部分的具体条款[^4]。 ```python # 示例代码:模拟简单决策逻辑 def decide_action(sensor_data): if sensor_data['obstacle'] and not sensor_data['emergency']: return 'slow_down' elif sensor_data['pedestrian_crossing']: return 'stop_and_yield' else: return 'continue_driving' example_input = {'obstacle': True, 'emergency': False, 'pedestrian_crossing': False} action = decide_action(example_input) print(f"Action to take: {action}") ``` 需要注意的是,“同学”作为特定平台上的学习资源名称,并不提供官方认证的标准答案集;建议通过正规渠道获取教材并参加培训课程来准备此类资格认证考试
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值