想象力惊人!只凭一句话,AI就能脑补出动漫小片

原创 2018年04月15日 00:00:00
岳排槐 发自 凹非寺
量子位 出品 | 公众号 QbitAI

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

《摩登原始人》你看过么?

这是一道暴露年龄题。

安妮薇,《摩登原始人》是一部首播于1960年的喜剧动画片。第一季在豆瓣上被2.2万用户打出8.7分的评价。

现在,这部想象力爆棚的动画片,被用来训练出了一个想象力惊人的AI。有多惊人?看过的人都说鹅妹子嘤~

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

只需要给一段脚本,或者说文本描述,AI就能脑补生成一段动漫小片。注意!这些动漫小片,都是你没有看过的全新版本。

生成的方法,就是AI根据描述,从原始动画片中找到对应的元素,提取出来。然后再调整大小、比例、位置、角度、道具、前景、背景等,重新拼接在一起~

来,直接看展示。

交代一下,Fred、Wilma等都是这部动漫的主人公名字。

脚本:

Fred戴着一顶红帽子,正走在客厅里。

这是AI生成的视频:

640?wx_fmt=gif

脚本:

Betty和Wilma在客厅里聊天。她俩坐在沙发上,你一言我一语。

视频:

640?wx_fmt=gif

脚本:

Fred开车途中,一边想一边自言自语。

视频:

640?wx_fmt=gif

脚本:

Betty在厨房里打电话。

视频:

640?wx_fmt=gif

怎么样?是不是很厉害?

下面这段视频,有更多的集中展示。


数据集和模型

AI是怎么做到的呢?简单来说,首先得构建一个《摩登原始人》的数据集,这个数据集包括25000个动画片小段(75帧,约三秒)。

每一小段都经过了密集的标注。

标注信息包括,场景、主要角色的名称:Fred、Wilma等。对于不常出现的配角,会有人工添加简单的注释:警察、穿红衣的老头等。

然后,还要借助SLIC算法(Simple Linear Iterative Clustering) 、GrabCut自动图像分割算法、PatchMatch算法等对画面进行分割和重建。

640?wx_fmt=png

经过这一系列的处理,就构成了AI可以利用的原始素材。

当然重中之重,就是AI模型的构建。

这个模型被称为Craft(Composition, Retrieval and Fusion Network)。从结构上来说,这个模型长这样:

640?wx_fmt=png

主要包括三个部分:Layout Composer(布局编排器)、Entity Retriever(实体检索器)、Background Retriever(背景检索器)。

在“脑补”动漫小片时,Craft从空视频开始,根据脚本描述,依次添加场景中的实体。实体和背景检索器,会从数据集中搜索合适的素材,而布局编排器会对位置和比例进行调整。

最终上述种种融合,生成一段全新的小片。

640?wx_fmt=png

上面这张图,就是布局编排器的工作原理。

当然这中间还涉及很多数学公式啊,实验啊什么的。如果你对这些细节感兴趣,可以直接前往论文查看。

地址:https://arxiv.org/abs/1804.03608

这个研究,出自AI2、UIUC等机构的几名学者之手。

还不完美

当然,当然,现阶段,这个研究远非无懈可击。

比方,画面的重建还相对粗糙,能明显看出拼贴的痕迹。

还有,AI有时会在理解脚本和重建视频上产生问题。

例如,搞错姿势(站着->坐着)、打电话时听筒位置不对、背景和人物动作不同步等等。还有下面这个案例。

脚本:Wilma正跟Fred讲话,而他坐在饭厅的餐桌前读书。Fred专注读书,没听Wilma在讲什么。

640?wx_fmt=gif

如果你仔细看,能发现两个人物关系搞反了。

还有更糟的。

对于极端复杂的场景,例如包括三个或以上罕见的实体对象,Craft脑补出来的动漫小骗堪称“灾难”。

就像这样。

640?wx_fmt=gif

不过,这个研究的意义在于,AI对于文本的理解,以及基于其上的视频生成。一切还都有进步空间。

更远一点,也许未来的动画工作室,不会再有一堆堆天才的动画师,取而代之的是能快速生成动画片的AI。

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/79955985

AI 学会“脑补”:神经网络超逼真图像补完从 0 到 1

AI 学会“脑补”:神经网络超逼真图像补完从 0 到 1 完胜 PS!新方法实现完美“脑补” 在分享照片之前,你可能会想进行一些修改,例如擦除分...
  • whiteboy1999
  • whiteboy1999
  • 2017-03-23 08:31:36
  • 852

几个简单的函数示例(最大公约数、二进制转换、回文)

编写一个函数,利用欧几里得算法(脑补链接)求最大公约数,例如gcd(x, y)返回值为参数x和参数y的最大公约数。...
  • zss041962
  • zss041962
  • 2017-12-14 21:49:14
  • 92

AI:连漫画都看不懂,谈什么毁灭世界?

作者:脑极体 全文共 2128 字 4 图,阅读需要 6 分钟 ———— / BEGIN / ———— 作为一个AI垂直自媒体的作者,我工作中的很大一部分就是替AI“带路”,然后...
  • k7Jz78GeJJ
  • k7Jz78GeJJ
  • 2017-11-27 00:00:00
  • 79

转载一篇杨澜的演讲稿——关于孩子的想象力创造力

转自:http://gdrs.blogdriver.com/gdrs/1162408.html    很荣幸能够成为参加解放日报报业集团“文化讲坛”的第一位女性嘉宾。女性和男性相比,有一个很大的、上帝...
  • musttieying
  • musttieying
  • 2006-05-23 17:24:00
  • 1424

人工智能学习思维导图

  • 2017年02月28日 10:13
  • 542KB
  • 下载

《惊人的假说-灵魂的科学探索》读书笔记(1)

本书作者克里克独辟躁径,坚持一个数理科学家朴素的唯物主义思想,大胆地提出了一个基于“还原论”的“惊人的假说”。他认为“人的精神活动完全由神经细胞、胶质细胞的行为和构成及影响它们的原子、离子和分子的性质...
  • lijiuyangzilsc
  • lijiuyangzilsc
  • 2015-10-16 16:42:05
  • 1577

加速想象力(北京)技术研发中心正式挂牌

12月2上午,在北京利亚德集团成功举行了“加速想象力(北京)技术研发中心”挂牌仪式。此前,利亚德就投资了世界知名AR企业Magic Leap、以及国内专业AR/VR及互动体感老牌技术公司黑晶科技、国内...
  • sinat_32970179
  • sinat_32970179
  • 2016-12-09 21:57:04
  • 642

NEO战略投资深脑链,助力区块链驱动人工智能行业

点击上方“蓝色字”可关注我们! 记者:铅笔盒 知名分布式智能资产NEO战略投资深脑链,后者是国内一线投资机构投资的人工智能项目。NE...
  • IJXR1A64JI53L
  • IJXR1A64JI53L
  • 2017-11-30 00:00:00
  • 315

360智能工程中心期待你的加入

1 机器学习相关 根据候选人能力及经验,职位包括但不限于:工程师、技术专家、技术经理、总监等。 工作内容 1、负责或参与360金融、视频、搜索广告等核心业务中机器学习算法研发,提升现有...
  • ZVAyIVqt0UFji
  • ZVAyIVqt0UFji
  • 2017-10-31 00:00:00
  • 314

人工智能正在激活互联网类脑系统,2018年,云脑将成为新热点

作者:未来智能实验室 一,AI与互联网的结合         从科学史可以看到这样一个规律,每一次人类社会的重大技术变革都会导致新领域的科学革命,互联网革命对于人类的影响已经远远超过了...
  • cf2SudS8x8F0v
  • cf2SudS8x8F0v
  • 2017-11-20 00:00:00
  • 140
收藏助手
不良信息举报
您举报文章:想象力惊人!只凭一句话,AI就能脑补出动漫小片
举报原因:
原因补充:

(最多只允许输入30个字)