阿里中科大推出ViViD: 轻松实现视频换衣,虚拟试衣技术迈向实用化

阿里巴巴与中国科学技术大学联手推出了一款名为ViViD的新框架,旨在革新虚拟试衣体验。ViViD基于先进的扩散模型技术,能够实现视频中人物衣物的实时替换,从而生成自然且逼真的视频效果。

ViViD的推出解决了以往视频试衣中难以保持时间一致性和图像质量的难题。它由三大核心组件构成:服装编码器、姿势编码器以及时间模块。这些组件协同工作,不仅可以精确提取衣物细节的语义特征,还能对人物姿势进行编码,并确保整个视频在时间线上的连贯性。

ViViD的问世不仅是人工智能领域的一项技术突破,更是虚拟试衣技术迈向实用化的重要一步。随着这一新框架的推广和应用,未来消费者在线上购物时将能享受到更加便捷、直观的试衣新体验,为零售商和电商企业带来新的增长机遇。

相关链接

Paper:https://arxiv.org/pdf/2405.11794

Github:https://github.com/BecauseImBatman0/ViViD

论文阅读

ViViD:使用扩散模型的视频虚拟试戴

摘要

视频虚拟试穿旨在将服装转移到目标人物的视频中。将基于图像的试穿技术以逐帧方式直接应用于视频域会导致时间不一致的结果,而之前基于视频的试穿解决方案只能产生低视觉质量和模糊的结果。在这项工作中,我们提出了 ViViD,这是一个采用强大扩散模型来解决视频虚拟试穿任务的新型框架。

具体来说,我们设计了服装编码器来提取细粒度的服装语义特征,引导模型捕捉服装细节并通过提出的注意特征融合机制将其注入目标视频。为了确保时空一致性,我们引入了一个轻量级的姿势编码器来编码姿势信号,使模型能够学习服装和人体姿势之间的相互作用,并将分层时间模块插入文本到图像的稳定扩散模型中,以实现更连贯和逼真的视频合成。

此外,我们收集了一个新数据集,这是迄今为止视频虚拟试穿任务中最大的、服装类型最多样化、分辨率最高的数据集。大量实验表明,我们的方法能够产生令人满意的视频试穿效果。数据集、代码和权重将公开。

方法

ViViD概述

首先,将嘈杂的视频与与服装无关的视频和面具视频连接起来,然后将姿势特征添加到其中。结果作为 UNet 的输入。同时,Garment Encoder 将服装和面具作为输入。之后,在 Garment Encoder 和 UNet 之间进行注意特征融合。

实验

ViViD可以处理多种服装。

由我们的ViViD生成的装备视频(512 × 384)。第一和第四行是源视频。

ViViD与VVT数据集上其他视觉试戴解决方案的定性比较结果。

更多结果

结论

在本文中,我们介绍了 ViViD,这是一个创新框架,利用强大的扩散模型来解决视频虚拟试穿难题。全面的实验表明,ViViD 可以生成具有高视觉质量和时间一致性的视频试穿结果。我们还收集了一个新数据集,这是该任务的最大数据集,其中包含多个类别的服装和高分辨率图像-视频对。我们相信我们的方法和数据集可以为视频虚拟试穿领域的研究人员提供有价值的参考。

### Vivid 音频技术详解 Vivid音频技术旨在提升用户的听觉体验,通过一系列先进的处理算法和技术手段实现更为沉浸式的音效效果[^3]。 #### 主要特性 - **空间音频渲染** 利用多声道环绕声技术和头部追踪功能,创建逼真的三维声场环境。无论是在观看电影还是聆听音乐时,都能让用户感受到仿佛置身于现场般的真实感。 - **高分辨率编码解码器** 支持多种无损压缩格式,确保原始录音质量得以完美还原,在保留更多细节的同时减少数据传输带宽需求。 - **动态范围优化** 自动调整不同场景下的响度差异,使得低音更加深沉有力而高音则清晰明亮,从而获得平衡且丰富的声音层次感。 #### 应用实例 华为视频举办的AiMax影视品鉴会上展示了这项技术的魅力所在——通过双Vivid菁彩视听技术支持,《声声乐尔》这档综艺节目实现了前所未有的高质量播放效果,给参与者带来了身临其境般的享受。 ```python # Python伪代码展示如何配置Vivid音频参数 class AudioSettings: def __init__(self, spatial_rendering=True, resolution="lossless", dynamic_range=0.8): self.spatial_rendering = spatial_rendering self.resolution = resolution self.dynamic_range = dynamic_range def apply_vivid(self): print(f"Applying Vivid settings with {self.resolution} quality and {'enabled' if self.spatial_rendering else 'disabled'} spatial rendering.") settings = AudioSettings() settings.apply_vivid() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIGC Studio

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值