DALL·E：用文本生成图像

最新推荐文章于 2024-10-06 09:00:43 发布

Civisky

最新推荐文章于 2024-10-06 09:00:43 发布

阅读量4.7k

点赞数

原文链接：https://openai.com/blog/dall-e/

版权

DALL·E是OpenAI公司发布的一个用文本生成图像的模型，它是GPT-3的一个版本，经过文本-图像数据集训练，具有120亿参数，可以从文本描述生成图像。DALL·E能够创建拟人化的动物和物体，以合理的方式组合不相关的概念，渲染文本，以及对现有图像进行转换。

DALL·E生成的图像：一个穿着芭蕾舞裙遛狗的萝卜宝宝的插图。

DALL·E生成的图像：一个穿着芭蕾舞裙滑冰的萝卜宝宝的插图。

DALL·E有时能够将一些人类活动和衣物转移到动物和无生命物体上，如食品。我们发现DALL·E使人体的某些部位适应于动物是很有趣的。例如，当被要求画一个擤鼻涕、滑冰、喝拿铁或骑独轮车的白萝卜时，DALL·E经常会把头巾、手和脚画在合理的位置上。

DALL·E生成的图像：牛油果形状的扶手椅。

DALL·E生成的图像：皮卡丘形状的扶手椅。

DALL·E能够从不相关的想法中获得灵感，同时尊重被设计事物的形式，理想地产生一个看起来实用的东西。我们发现用短语“in the shape of”、“in the form of”和“in the style of”来提示DALL·E可以让它做到这一点。DALL·E在生成这些东西时，比如“牛油果形状的扶手椅”，似乎把半个牛油果的形状和椅背联系起来，把牛油果的核和坐垫联系起来。

DALL·E生成的图像：一个写着“openai”字样的店面。

DALL·E生成的图像：一袋写着“openai”字样的薯片。

DALL·E生成的图像：飞机在天空写的“openai”字样。

DALL·E能够渲染文本，并使写作风格适应文本出现的语境。例如，“a bag of chips”和“a license plate”都需要不同的字体，“a neon sign”和“written in the sky”都需要改变字母的外观。

DALL·E生成的图像：上面的猫和下面的素描一模一样。

DALL·E生成的图像：戴墨镜的动物。

DALL·E能够对动物照片进行多种图像变换，且具有不同程度的可靠性。近距离动物特写的转换要求DALL·E识别照片中动物的品种，并用适当的细节进行近距离渲染。这项工作还不太可靠，而且对于一些照片，DALL·E只在一两个实例中生成似是而非的结果。其他变换如“戴墨镜的动物”和“戴领结的动物”，需要把附件放在动物身体的正确部位。DALL·E有时能够将动物从背景中分割出来。

GPT-3表明，语言可以用来指导一个大型神经网络执行各种文本生成任务。图像GPT表明，同样类型的神经网络也可以用来生成高保真的图像。DALL·E表明，通过语言操纵视觉概念现在是可以实现的。

注：DALL·E这个名字是OpenAI公司用艺术家Salvador Dalí和皮克斯《机器人总动员》中WALL·E的名字组合而来的。