微软推出 VASA-1 AI 框架,可逼真对口型人像视频

微软宣布的VASA-1AI框架利用深度学习和扩散Transformer,能从照片和语音生成自然对口型视频。尽管技术先进,但因可能的伦理风险,微软暂不公开。此技术预示视频生成领域的突破,但也强调了伦理控制的重要性。
摘要由CSDN通过智能技术生成

b2a3fa480134751ca9b50a4a32053adb.png

4 月 21 日消息,据微软官方新闻稿,微软今天公布了一项图生视频的 VASA-1 框架,该 AI 框架只需使用一张真人肖像照片和一段个人语音音频,就能够生成精确逼真的对口型视频(生成念稿子的视频),据称在表情和头部动作方面特别自然。

7818c30b34ed1eb9f76e6913670a4ad1.png

目前业界相关许多研究都集中在对口型上,而面部动态行为及头部运动情况通常被忽视,因此生成的面部也会显得僵硬、缺乏说服力且存在恐怖谷现象。

而微软的 VASA-1 框架克服了以往面部生成技术的限制,研究人员利用了扩散 Transformer 模型,在整体面部动态和头部运动方面进行训练,该模型将所有可能的面部动态,包括嘴唇动作、表情、眼睛注视和眨眼等行为均视为单一潜在变量(即一次生成整个具有高度细节的人脸),号称能够即时生成 512×512 分辨率 40 FPS 的视频。

f4f2eee69dd5254b590ace334e0857b0.png

微软还利用了 3D 技术辅助标记人脸面部特征,并额外设计了损失函数,号称能够让 VASA-1 不仅能够生成高品质的面部视频,还能够有效地捕捉和重现面部 3D 结构。

VASA-1 AI框架是一项前沿的技术创新,利用人工智能和机器学习算法,能够实时生成逼真的对口型人像视频。该框架基于深度学习技术,通过对大量面部图像和语音数据进行训练,学会了如何将静态的面部图像与音频剪辑相结合,生成出具有精细同步的唇部运动、面部表情和头部运动的视频。

VASA-1框架克服了以往面部生成技术的限制,利用扩散Transformer模型在整体面部动态和头部运动方面进行训练,将嘴唇动作、表情、眼睛注视和眨眼等行为均视为单一潜在变量,从而实现了对整个面部的高度细节化生成。这种技术使得生成的视频在表情和头部动作方面特别自然,极大地提高了视频的真实性和生动性。

由于VASA-1框架生成的视频效果过于逼真,微软在演示后出于伦理考虑决定不向公众发布此技术。因为此类深度伪造技术可能被滥用于冒充诈骗等不法行为,从而对社会造成负面影响。

即便如此,VASA-1框架的推出仍然标志着人工智能在视频生成领域的一大进步,为未来的影视制作、虚拟角色创建等领域提供了广阔的应用前景。同时,这也提醒我们在推动技术创新的同时,必须高度重视其可能带来的伦理和社会问题,确保技术的健康发展与社会的和谐稳定。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值