这些常人难以理解的背后技术融合解析

最新推荐文章于 2022-11-17 15:14:48 发布

Eric An

最新推荐文章于 2022-11-17 15:14:48 发布

阅读量282

点赞数 1

分类专栏：《Latex科研;码上生活反思觉悟》

本文链接：https://blog.csdn.net/yunxinan/article/details/83244929

版权

《Latex科研;码上生活反思觉悟》专栏收录该内容

73 篇文章 0 订阅

订阅专栏

麻省理工公布：麻省理工人工智能算法团队通过200万张图片遇见1.5秒后的世界。
这项技术的背后术语是：基于时空耦合的场景识别与对抗模型的结合，是继实例分割后一个新技术，按照时空序列合成的对抗模型我个人理解。
动态视觉许多计算机视觉领域的研究工作都研究过类似的课题，包括
MIT 教授 Bill Freeman。Freeman
教授近期的关于“动态视觉”的课题同样是研究对一个场景主动生成未来几帧的图像，不过他所提出的问题模型集中在解决未来视频的推断上。这是先前研究成果中未出现过的。以往的系统模型逐帧重建场景，通常会在边缘有较大误差。与此相反，这项研究攻克了“建立整个场景”的难题，算法从一开始就能产生帧率为 32 的视频。“逐帧建立场景就像玩 Telephone Game 一样（Telephone Game 是什么？传送门：http://icebreakerideas.com/telephone-game/），在屋里转一圈后信息便已经大相径庭了。”Vondrick 说道，“一次性地处理一整个场景，就好比这个游戏中你能将消息传给所有人一样。”当然，在同时生产所有场景时会有一些权衡，并且针对长视频，计算机模型也是非常复杂的，但这一结果在逐渐变得准确。这种精准的预测相对于增加的复杂度是非常值得的。为了建立多帧场景，研究工作者训练计算机来区分前景和背景。而后将提取的对象放回视频中再训练，哪个部分是静止的，哪个部分是运动的。研究团队使用称作“adversarial learning”的深度学习算法，该方法训练两个竞争神经网络。其中一个神经网络生成视频，另一个作为检测器寻找生成视频与原视频的不同。通过训练，视频生成的结果便可以骗过检测器。此时，这一模型可以生成诸如海滩、火车站、医院、高尔夫球场等场景。比如，海滩模型可以生成海浪，高尔夫球场模型可以生成草坪上走动的人群。
https://blog.csdn.net/aiqiu_gogogo/article/details/79982210
第二：微软团队的看图写诗
微软亚洲研究院确实培养很多计算机视觉高手，目标检测方向我知道的三位顶级高手，Ross、孙剑、何凯明。https://thenextweb.com/artificial-intelligence/
一个经典问题：时空因果解释图（spatial，temporal and causal parse Graph）
visualturingtest.com。

Eric An

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
这些常人难以理解的背后技术融合解析

麻省理工公布：麻省理工人工智能算法团队通过200万张图片遇见1.5秒后的世界。这项技术的背后术语是：基于时空耦合的场景识别与对抗模型的结合，是继实例分割后一个新技术，按照时空序列合成的对抗模型我个人理解。动态视觉许多计算机视觉领域的研究工作都研究过类似的课题，包括MIT 教授 Bill Freeman。Freeman教授近期的关于“动态视觉”的课题同样是研究对一个场景主动生成未来几帧的图像...
复制链接

扫一扫