DALL·E 3原来是这样炼成的！OpenAI亲自解密，ChatGPT上可用

夕小瑶

于 2023-10-20 23:11:23 发布

阅读量315

点赞数

文章标签： chatgpt 人工智能

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/133955768

版权

OpenAI宣布DALL·E3全面开放，展示了其强大的图像生成能力。模型通过改进的训练方法提升了对详细描述的遵循性，并实施了多重安全系统以防止有害内容。同时，处理了版权问题，允许用户反馈和艺术作品的版权选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

夕小瑶科技说原创
编译 | 谢年年、王二狗喜大普奔！

OpenAI今天官宣，DALL·E 3 现已向所有 ChatGPT Plus 和企业版用户开放！

大模型研究测试传送门

GPT-4传送门（免墙，可直接测试，遇浏览器警告点高级/继续访问即可）：
https://gpt4test.com

其实 OpenAI 早在一个月之前就发布了DALL·E 3，奈何只有一部分内侧用户能使用到，这可把全球的AI小伙伴给馋坏了。

好在今天终于等到了！

在欣赏OpenAI的官网展示之前，我们先自己动手玩玩它（手动狗头）！

输入：一只马🐎正在骑着宇航员👨‍🚀

DALL·E 3的生成结果：

DALL·E 3只生成对了一半，也不知背后是什么算法。

我给它加大难度！

输入：两只马🐎正在骑着宇航员👨‍🚀

DALL·E 3的生成结果：

接着输入：三只马🐎正在骑着宇航员👨‍🚀

DALL·E 3的生成结果：

妈呀，最后一张图宇航员好惨😂

好吧，休息一下，下面是 OpenAI 官网的展示，使用DALL·E 3可以辅助做科学项目、网站设计和企业标志。

除此之外，DALL·E 3生成各种风格的绘画能力也是一绝。

让我们来看看官网放出的例子，美轮美奂又充满想象力，是每一张都想要保存下来做屏保的程度。

水彩杰作，在旧纸上绘制，带有金色色调，取材于印象派和荷兰黄金时代的艺术:-位身着飘逸红色连衣裙的女性在风景如画的东方花园中的鹅卵石小路上漫步。雨水打在水面上，与日落相结合，创造出令人着迷的波光粼粼的倒影。

这幅混合媒体绘画采用金属墨水和水彩画而成，其风格让人想起印象派，在闪闪发光的银色草地上展示了一匹迷人的绿马。风景上点缀着柔和的蓝色罂粟花，它们的花朵在金属色调的映衬下显得格外引人注目。错综复杂的细节和光芒四射的效果提升了艺术品的档次，赋予其梦幻般的品质。

漂浮在太空中的宇航员躺在云朵上，云朵变成了一把舒适的扶手椅，扶手上有一个云朵形状的遥控器。宇航员对着镜头挥手，在他们的脚下，地球是一个令人着迷的色彩和灯光旋涡。

一个巨大的观察眼睛，虹膜错综复杂，瞳孔与向日葵类似。深邃而黑暗的瞳孔出现在向日葵的中心，周围的金色虹膜图案与花瓣相映。

一座折纸雕塑，描绘了一个骑士手持盾牌与一只喷火的龙搏斗的场景，并加入了轻微的景深效果。

一幅柔和的水彩画，描绘了一个清爽的秋日中的一棵树。金红和橙色的树叶象征着人们可以获得的丰富知识。附近的鸟儿高飞着，每只鸟都抓着一面横幅，上面有完整短语的一部分：“试着了解一切，也试着了解一件事的方方面面！”

一幅油画，散发着伦勃朗特的杰作氛围，描绘了一只小鸡躲在鸡舍里。它专心地阅读着一份报纸，上面写着醒目的标题：“狐狸再次袭击”。这个场景通过深邃的阴影和戏剧性的光影交织，唤起了小鸡眼中的好奇和关切。

在一个方形木制面板上的玻璃马赛克作品：一个水下场景，闪烁着生动的海洋生物——由闪光的彩瓷砖制成的鱼类、由彩色玻璃碎片组成的珊瑚形态以及反射的碎片从不同的角度捕捉光线。

精致的纸上有轻微磨损的Kirigami插图:复杂的3D弹出式传统日本花园，有锦鲤池和石灯笼-通过精确的切割和折叠将自然场景带入生活-剪纸和折叠纸的艺术创造雕塑设计。

一个色彩柔和的像素艺术场景，一个皮肤白皙的老年高加索女士。靠着阳台栏杆休息，沉浸在旧金山迷人的晨景中。海湾里到处都是小帆船，金门大桥高耸在人群中。餐桌和椅子上的多肉植物增强了阳台的氛围。

一幅近景的柔和野兽派绘画，描绘了一个年轻夫妇手牵手在巴黎拥挤的小巷中漫步。天空下着毛毛细雨，湿漉漉的鹅卵石街道映照出周围的建筑物。藤蔓优雅地垂挂在建筑物的侧面，露天酒吧里坐满了顾客，其中一些人凝视着外面，享受雨水的宁静。在背景中可以隐约看到埃菲尔铁塔的轮廓。

天空中有一朵奇异的、蓬松的云，在宁静的蓝色背景下，巧妙地形成了一只顽皮的小狗。

一部20世纪40年代的经典卡通，描绘了一个机器人拿着一个冒着蒸汽的咖啡杯，上面有一个闪电符号。对话气泡上写着“需要给我充电”，机器人坐在咖啡店室内的一张桌子旁边的海湾窗前。

OpenAI 公布 DALL·E 3论文

OpenAI这次也公布了DALL·E 3的论文，单从论文作者的名字拼音来看，可能多达一半都是华人作者！

OpenAI在论文中证明，通过在高度描述性的生成图像标题上进行训练，文本到图像模型的prompt遵循能力可以得到显著提高。现有的文本到图像模型难以遵循详细的图像描述，经常忽略单词或混淆prompt的含义。OpenAI假设这个问题源于训练数据集中的嘈杂和不准确的图像标题。为了解决这个问题，OpenAI 训练了一个定制的图像标题生成器，并使用它重新标注训练数据集。OpenAI 训练了几个文本到图像模型，发现在这些合成标题上的训练可靠地提高了 prompt 遵循能力...... 最终就产生了DALL·E 3模型！

更多内容细节可以查看原论文：

https://cdn.openai.com/papers/dall-e-3.pdf

打造负责任安全的DALL·E 3

OpenAI表示DALL·E 3采用了多层安全系统，限制其生成潜在有害图像的能力，包括暴力、成人或仇恨内容。在向用户呈现生成的图像之前，会对用户的提示和生成的图像进行安全检查。

OpenAI还与早期的用户和专家进行合作，识别和解决了新模型功能带来的安全系统漏洞。例如，通过用户反馈帮助确定了图像内容生成的边界情况，如性暗示图像，并对模型生成具有误导性的图像的能力进行了压力测试。

因此，OpenAI非常重视用户的反馈。当用户在使用中遇到不安全的输出或最终输出与在ChatGPT中给出的提示不符，用户可以点击旗帜图标向研究团队提供反馈。

在DALL·E 3的部署环节中，OpenAI还采取了措施限制模型生成特定艺术家风格的内容，避免生成公众人物的图像，并改善生成图像中的人口代表性等问题。

除此之外，OpenAI正在研究一种分类器，以识别图像是否由DALL·E 3生成。在早期的内部评估中，当图像未经修改时，该分类器在识别图像是否由DALL·E生成方面的准确率超过99%。即使图像经过裁剪、调整大小、JPEG压缩等常见类型的修改，或在生成的图像的一小部分上叠加真实图像的文本或剪贴图，该分类器的准确率仍然超过95%。但是，OpenAI表示，即使在内部测试中取得了强大的结果，但分类器只能表示图像很可能由DALL·E生成，还不能给出最终的结论。因此该技术还需要进一步优化。

版权保护

前段时间，部分艺术家抗议OpenAI将自己的作品用作训练数据的事情闹得沸沸扬扬，关于AIGC产出内容的版权归属问题一直存在争议。

此次更新，DALL·E 3 拒绝了要求提供在世艺术家风格的图像的请求。他们还为艺术家们提供了选择将他们的图像从未来图像生成模型的训练中剔除的选项。

别光顾着看了！亲自动手玩起来吧！