想象力惊人！只凭一句话，AI就能脑补出动漫小片

量子位

于 2018-04-15 00:00:00 发布

阅读量276

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/79955985

版权

岳排槐发自凹非寺
量子位出品 | 公众号 QbitAI

《摩登原始人》你看过么？

这是一道暴露年龄题。

安妮薇，《摩登原始人》是一部首播于1960年的喜剧动画片。第一季在豆瓣上被2.2万用户打出8.7分的评价。

现在，这部想象力爆棚的动画片，被用来训练出了一个想象力惊人的AI。有多惊人？看过的人都说鹅妹子嘤~

只需要给一段脚本，或者说文本描述，AI就能脑补生成一段动漫小片。注意！这些动漫小片，都是你没有看过的全新版本。

生成的方法，就是AI根据描述，从原始动画片中找到对应的元素，提取出来。然后再调整大小、比例、位置、角度、道具、前景、背景等，重新拼接在一起~

来，直接看展示。

交代一下，Fred、Wilma等都是这部动漫的主人公名字。

脚本：

Fred戴着一顶红帽子，正走在客厅里。

这是AI生成的视频：

脚本：

Betty和Wilma在客厅里聊天。她俩坐在沙发上，你一言我一语。

视频：

脚本：

Fred开车途中，一边想一边自言自语。

视频：

脚本：

Betty在厨房里打电话。

视频：

怎么样？是不是很厉害？

下面这段视频，有更多的集中展示。

class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.588235294117647" data-w="432" data-src="http://v.qq.com/iframe/player.html?vid=q0629qgk30d&width=670&height=376.875&auto=0" style="display: none; width: 670px !important; height: 376.875px !important;" width="670" height="376.875" data-vh="376.875" data-vw="670" src="http://v.qq.com/iframe/player.html?vid=q0629qgk30d&width=670&height=376.875&auto=0"/>

数据集和模型

AI是怎么做到的呢？简单来说，首先得构建一个《摩登原始人》的数据集，这个数据集包括25000个动画片小段（75帧，约三秒）。

每一小段都经过了密集的标注。

标注信息包括，场景、主要角色的名称：Fred、Wilma等。对于不常出现的配角，会有人工添加简单的注释：警察、穿红衣的老头等。

然后，还要借助SLIC算法(Simple Linear Iterative Clustering) 、GrabCut自动图像分割算法、PatchMatch算法等对画面进行分割和重建。

经过这一系列的处理，就构成了AI可以利用的原始素材。

当然重中之重，就是AI模型的构建。

这个模型被称为Craft（Composition, Retrieval and Fusion Network）。从结构上来说，这个模型长这样：

主要包括三个部分：Layout Composer（布局编排器）、Entity Retriever（实体检索器）、Background Retriever（背景检索器）。

在“脑补”动漫小片时，Craft从空视频开始，根据脚本描述，依次添加场景中的实体。实体和背景检索器，会从数据集中搜索合适的素材，而布局编排器会对位置和比例进行调整。

最终上述种种融合，生成一段全新的小片。

上面这张图，就是布局编排器的工作原理。

当然这中间还涉及很多数学公式啊，实验啊什么的。如果你对这些细节感兴趣，可以直接前往论文查看。

地址：https://arxiv.org/abs/1804.03608

这个研究，出自AI2、UIUC等机构的几名学者之手。

还不完美

当然，当然，现阶段，这个研究远非无懈可击。

比方，画面的重建还相对粗糙，能明显看出拼贴的痕迹。

还有，AI有时会在理解脚本和重建视频上产生问题。

例如，搞错姿势（站着->坐着）、打电话时听筒位置不对、背景和人物动作不同步等等。还有下面这个案例。

脚本：Wilma正跟Fred讲话，而他坐在饭厅的餐桌前读书。Fred专注读书，没听Wilma在讲什么。

如果你仔细看，能发现两个人物关系搞反了。

还有更糟的。

对于极端复杂的场景，例如包括三个或以上罕见的实体对象，Craft脑补出来的动漫小骗堪称“灾难”。

就像这样。

不过，这个研究的意义在于，AI对于文本的理解，以及基于其上的视频生成。一切还都有进步空间。

更远一点，也许未来的动画工作室，不会再有一堆堆天才的动画师，取而代之的是能快速生成动画片的AI。

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。