麻省理工公布:麻省理工人工智能算法团队通过200万张图片遇见1.5秒后的世界。
这项技术的背后术语是:基于时空耦合的场景识别与对抗模型的结合,是继实例分割后一个新技术,按照时空序列合成的对抗模型我个人理解。
动态视觉许多计算机视觉领域的研究工作都研究过类似的课题,包括
MIT 教授 Bill Freeman。Freeman
教授近期的关于“动态视觉”的课题同样是研究对一个场景主动生成未来几帧的图像,不过他所提出的问题模型集中在解决未来视频的推断上。这是先前研究成果中未出现过的。以往的系统模型逐帧重建场景,通常会在边缘有较大误差。与此相反,这项研究攻克了“建立整个场景”的难题,算法从一开始就能产生帧率为 32 的视频。“逐帧建立场景就像玩 Telephone Game 一样(Telephone Game 是什么?传送门:http://icebreakerideas.com/telephone-game/),在屋里转一圈后信息便已经大相径庭了。”Vondrick 说道,“一次性地处理一整个场景,就好比这个游戏中你能将消息传给所有人一样。”当然,在同时生产所有场景时会有一些权衡,并且针对长视频,计算机模型也是非常复杂的,但这一结果在逐渐变得准确。这种精准的预测相对于增加的复杂度是非常值得的。为了建立多帧场景,研究工作者训练计算机来区分前景和背景。而后将提取的对象放回视频中再训练,哪个部分是静止的,哪个部分是运动的。研究团队使用称作“adversarial learning”的深度学习算法,该方法训练两个竞争神经网络。其中一个神经网络生成视频,另一个作为检测器寻找生成视频与原视频的不同。通过训练,视频生成的结果便可以骗过检测器。此时,这一模型可以生成诸如海滩、火车站、医院、高尔夫球场等场景。比如,海滩模型可以生成海浪,高尔夫球场模型可以生成草坪上走动的人群。
https://blog.csdn.net/aiqiu_gogogo/article/details/79982210
第二:微软团队的看图写诗
微软亚洲研究院确实培养很多计算机视觉高手,目标检测方向我知道的三位顶级高手,Ross、孙剑、何凯明。https://thenextweb.com/artificial-intelligence/
一个经典问题:时空因果解释图(spatial,temporal and causal parse Graph)
visualturingtest.com。
这些常人难以理解的背后技术融合解析
最新推荐文章于 2024-05-22 11:51:55 发布