DALL·E:用文本生成图像

DALL·E是OpenAI公司发布的一个用文本生成图像的模型,它是GPT-3的一个版本,经过文本-图像数据集训练,具有120亿参数,可以从文本描述生成图像。DALL·E能够创建拟人化的动物和物体,以合理的方式组合不相关的概念,渲染文本,以及对现有图像进行转换。

图片

DALL·E生成的图像:一个穿着芭蕾舞裙遛狗的萝卜宝宝的插图。

图片

DALL·E生成的图像:一个穿着芭蕾舞裙滑冰的萝卜宝宝的插图。

DALL·E有时能够将一些人类活动和衣物转移到动物和无生命物体上,如食品。我们发现DALL·E使人体的某些部位适应于动物是很有趣的。例如,当被要求画一个擤鼻涕、滑冰、喝拿铁或骑独轮车的白萝卜时,DALL·E经常会把头巾、手和脚画在合理的位置上。

图片

DALL·E生成的图像:牛油果形状的扶手椅。

图片

DALL·E生成的图像:皮卡丘形状的扶手椅。

DALL·E能够从不相关的想法中获得灵感,同时尊重被设计事物的形式,理想地产生一个看起来实用的东西。我们发现用短语“in the shape of”、“in the form of”和“in the style of”来提示DALL·E可以让它做到这一点。DALL·E在生成这些东西时,比如“牛油果形状的扶手椅”,似乎把半个牛油果的形状和椅背联系起来,把牛油果的核和坐垫联系起来。

图片

DALL·E生成的图像:一个写着“openai”字样的店面。

图片

DALL·E生成的图像:一袋写着“openai”字样的薯片。

图片

DALL·E生成的图像:飞机在天空写的“openai”字样。

DALL·E能够渲染文本,并使写作风格适应文本出现的语境。例如,“a bag of chips”和“a license plate”都需要不同的字体,“a neon sign”和“written in the sky”都需要改变字母的外观。

图片

DALL·E生成的图像:上面的猫和下面的素描一模一样。

图片

DALL·E生成的图像:戴墨镜的动物。

DALL·E能够对动物照片进行多种图像变换,且具有不同程度的可靠性。近距离动物特写的转换要求DALL·E识别照片中动物的品种,并用适当的细节进行近距离渲染。这项工作还不太可靠,而且对于一些照片,DALL·E只在一两个实例中生成似是而非的结果。其他变换如“戴墨镜的动物”和“戴领结的动物”,需要把附件放在动物身体的正确部位。DALL·E有时能够将动物从背景中分割出来。

GPT-3表明,语言可以用来指导一个大型神经网络执行各种文本生成任务。图像GPT表明,同样类型的神经网络也可以用来生成高保真的图像。DALL·E表明,通过语言操纵视觉概念现在是可以实现的。

注:DALL·E这个名字是OpenAI公司用艺术家Salvador Dalí和皮克斯《机器人总动员》中WALL·E的名字组合而来的。

图片

艺术家Salvador Dalí

图片

《机器人总动员》WALL·E

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值