在2023年11月,谷歌研究院发布了一项令人瞩目的研究成果——Generative Image Dynamics(生成图像动力学)。这项技术的核心是将静态的图片转化为动态的、无缝循环的视频,而且更令人兴奋的是,这些生成的视频还具有交互性。
一作Zhengqi Li,作为谷歌研究院的杰出科学家,专注于3D/4D计算机视觉、基于图像的渲染以及计算摄影的研究。他尤其擅长处理“in the wild”图像和视频,即那些在非受控环境下捕获的复杂数据。在康奈尔大学攻读计算机科学博士学位期间,师从著名学者Noah Snavely。Zhengqi Li的杰出贡献得到了业界的广泛认可,曾荣获CVPR 2019最佳论文荣誉提名奖,并于2020年获得谷歌博士奖学金和奥多比研究奖学金。在随后的职业生涯中,他再接再厉,于2021年获得百度全球人工智能100强中国新星奖,在CVPR 2023上荣获最佳论文荣誉奖,更在CVPR 2024的评选中获得最佳论文奖。这些荣誉充分展现了Zhengqi Li在计算机视觉领域的卓越才华和持续贡献。
该研究提出了一种对场景运动建模图像—空间先验的方法。该先验是从真实视频序列中提取的运动轨迹集合中学习而来,描绘了物体的自然振荡动力学,例如树木、衣服等物体在风中摇曳。该研究将傅立叶域中密集、长期运动建模为频谱体积(spectral volume),研究团队发现这非常适合用扩散模型预测。
订阅专栏 解锁全文
1113

被折叠的 条评论
为什么被折叠?



