DALL·E是OpenAI公司发布的一个用文本生成图像的模型,它是GPT-3的一个版本,经过文本-图像数据集训练,具有120亿参数,可以从文本描述生成图像。DALL·E能够创建拟人化的动物和物体,以合理的方式组合不相关的概念,渲染文本,以及对现有图像进行转换。
DALL·E生成的图像:一个穿着芭蕾舞裙遛狗的萝卜宝宝的插图。
DALL·E生成的图像:一个穿着芭蕾舞裙滑冰的萝卜宝宝的插图。
DALL·E有时能够将一些人类活动和衣物转移到动物和无生命物体上,如食品。我们发现DALL·E使人体的某些部位适应于动物是很有趣的。例如,当被要求画一个擤鼻涕、滑冰、喝拿铁或骑独轮车的白萝卜时,DALL·E经常会把头巾、手和脚画在合理的位置上。
DALL·E生成的图像:牛油果形状的扶手椅。
DALL·E生成的图像:皮卡丘形状的扶手椅。
DALL·E能够从不相关的想法中获得灵感,同时尊重被设计事物的形式,理想地产生一个看起来实用的东西。我们发现用短语“in the shape of”、“in the form of”和“in the style of”来提示DALL·E可以让它做到这一点。DALL·E在生成这些东西时,比如“牛油果形状的扶手椅”,似乎把半个牛油果的形状和椅背联系起来,把牛油果的核和坐垫联系起来。
DALL·E生成的图像:一个写着“openai”字样的店面。
DALL·E生成的图像:一袋写着“openai”字样的薯片。
DALL·E生成的图像:飞机在天空写的“openai”字样。
DALL·E能够渲染文本,并使写作风格适应文本出现的语境。例如,“a bag of chips”和“a license plate”都需要不同的字体,“a neon sign”和“written in the sky”都需要改变字母的外观。
DALL·E生成的图像:上面的猫和下面的素描一模一样。
DALL·E生成的图像:戴墨镜的动物。
DALL·E能够对动物照片进行多种图像变换,且具有不同程度的可靠性。近距离动物特写的转换要求DALL·E识别照片中动物的品种,并用适当的细节进行近距离渲染。这项工作还不太可靠,而且对于一些照片,DALL·E只在一两个实例中生成似是而非的结果。其他变换如“戴墨镜的动物”和“戴领结的动物”,需要把附件放在动物身体的正确部位。DALL·E有时能够将动物从背景中分割出来。
GPT-3表明,语言可以用来指导一个大型神经网络执行各种文本生成任务。图像GPT表明,同样类型的神经网络也可以用来生成高保真的图像。DALL·E表明,通过语言操纵视觉概念现在是可以实现的。
注:DALL·E这个名字是OpenAI公司用艺术家Salvador Dalí和皮克斯《机器人总动员》中WALL·E的名字组合而来的。
艺术家Salvador Dalí
《机器人总动员》WALL·E