最近图像多模态生成模型特别火,简单尝试了下。
项目地址:GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model
由于本地GPU比较弱鸡,使用了Google的colab进行了简单尝试,colab地址:
被效果惊呆了:
输入:A Ultraman takes a nap in office.
奥特曼在办公室睡午觉。
输入:monkey playing football under an banana tree
猴子在香蕉树下玩足球。
咱也尝试下中国画怎么样:
输入:
Beautiful streets in ancient China with a bridge over the river
中国古代街道
大多数的生成效果都有一点让人眼前一亮,虽然人脸和一些细节生成还不是太好,但是这种基于扩散模型的生成模型感觉前景可期,甚至有可能用于商业应用,做精细化的配图生成。当然还有一块市场是艺术画作生成,这一块也有很大的空间值得期待。