Wav2Lip视频人脸口型同步（Win10）

莫扎特不唱摇篮曲

已于 2024-01-16 18:19:03 修改

阅读量2.2k

点赞数 9

文章标签：音视频

于 2024-01-15 18:31:07 首次发布

本文链接：https://blog.csdn.net/xhzq1986/article/details/135607285

版权

最近比较火的一个AI场景，就是用原声讲外语，嘴型同步，网上找了些资料，今天也跑起来了，推荐 Wav2Lip，官网地址：Github Wav2Lip

环境准备

Python3.6
ffmpeg
git clone https://github.com/Rudrabha/Wav2Lip.git
pip install -r requirements.txt
下载人脸检测模型，并放在路径 face_detection/detection/sfd/s3fd.pth
Wav2Lip模型下载，放到路径 checkpoints/wav2lip.pth

上述步骤中涉及到下载地址的，直接访问官网首页对应链接即可下载

安装异常排查

opencv 安装异常

将 requirements.txt 中的 opencv-contrib-python>=4.2.0.34 修改为 opencv-contrib-python==4.2.0.34

pytorch 1.1.0 安装异常

直接进 pytorch 官网，用官网的方法安装 https://pytorch.org/get-started/previous-versions/#v110

视频demo

直接用官方的视频demo，进入 https://bhaasha.iiit.ac.in/lipsync/ 这个地址，里面的三个视频可以直接下载使用

音频生成

推荐这个网站，很好用 https://www.text-to-speech.cn/

运行命令

python inference.py --checkpoint_path ./checkpoints/wav2lip.pth --face D:/Ekoz/Items/QiuBao/dictator_orig.mp4 --audio D:/Ekoz/Items/QiuBao/output.wav
最终合成的视频，在 results 目录下

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

莫扎特不唱摇篮曲

关注关注

9
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

wav2lip: 音频驱动唇形同步生成！

A_D_I_D_A_S的博客

01-31

210

A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

基于Wav2Lip的AI主播

最新发布

gitblog_00135的博客

04-08

895

开源项目sd-wav2lip-uhq安装与配置指南 sd-wav2lip-uhq Wav2Lip UHQ extension for Automatic1111 项目地址: https://gitcode.com/gh_mirro...

数字人解决方案——Wav2lip语音驱动唇部动作的技术原理（附整合包下载）

知来者逆的博客

03-13

6153

wav2lip提出了一个专家口型同步判别器，该判别器在真实视频中进行预训练，并包含多帧信息，可用于判断音频和口型是否同步。实验证明，相比于基于像素的人脸重建方法，这个专家判别器在口型同步判别任务上更为准确。在训练阶段，该专家判别器保持冻结状态，以确保其判断结果不受伪影的干扰。

CCEEHM的博客

01-03

3964

当然！如果像要对视频人物进行“换脸”，那就还得进行安装和下载“FaceSwap”的模型以及环境。

探索前沿技术：Wav2Lip - 实时唇语同步合成神器

gitblog_00009的博客

03-20

1037

探索前沿技术：Wav2Lip - 实时唇语同步合成神器去发现同类优质开源项目:https://gitcode.com/ 【项目链接】：项目简介 Wav2Lip是一个基于深度学习的开源项目，它允许将音频中的语音实时地同步到视频中人物的嘴唇动作。这个强大的工具利用先进的计算机视觉和自然语言处理技术，为电影制作、游戏开发、虚拟主播等领域带来了新的可能性。技术分析深度学习模型 Wav2Lip的核心...

wav2lip

王东辉的博客

07-27

1905

这项工作主要研究了用任意身份的语音或者视频来驱动另外一个语音视频。目前的工作擅长在特定的人的静态图片或视频产生准确的唇部动作。然而在动态的面部视频中，它们不能准确地变形任意身份的嘴唇动作，从而导致视频中重要的部分与新的音频不同步。本文确定了与此问题相关的关键原因，并在这里使用一个强大的唇口同步鉴别器学习来解决它们。接下来，提出了新的、严格的评估基准和度量标准来准确地度量无约束视频中的唇同步。

Wav2Lip

AI生成式技术曾小健

05-29

3603

还有一个关于此的教程视频，由 What Make Art 提供。此外，多亏了 Eyal Gruss，Google Colab notebook 更易于使用，具有更多有用的功能。音频源可以是 FFMPEG 支持的任何包含音频数据的文件：*.wav、*.mp3 甚至是视频文件，代码会自动从中提取音频。或者，此处提供了使用 docker 镜像的说明。🔥 🔥 发布了几个新的、可靠的评估基准和指标 [评估/此 repo 的文件夹]。还提供了计算论文中报告的指标的说明。提供完整的训练代码、推理代码和预训练模型💥。

探索前沿技术：高质量的WAV2LIP-HQ——实时唇语同步神器

gitblog_00016的博客

04-17

934

探索前沿技术：高质量的WAV2LIP-HQ——实时唇语同步神器去发现同类优质开源项目:https://gitcode.com/ 在人工智能领域，生成真实的视频序列已不再遥不可及。是一个开源项目，它利用深度学习技术将音频转换为逼真的嘴唇动作，实现了音频与视频中的嘴唇运动的精确同步。这篇文章将深入解析其工作原理、应用场景和独特之处，引导你体验这项创新技术的魅力。项目简介 WAV2LIP-HQ是由开...

GitHub：Wav2Lip AI对口型项目部署

weixin_39381937的博客

01-03

1077

在这项工作中，我们研究的问题是嘴唇同步一个说话的人脸视频的任意身份，以匹配目标语音片段。目前的作品擅长在静态图像或训练阶段看到的特定人的视频上产生准确的嘴唇运动。然而，它们无法准确地变形动态、无约束的说话人脸视频中任意身份的嘴唇运动，导致视频的重要部分与新音频不同步。我们找出了与此相关的主要原因，并通过向强大的假唱鉴别器学习来解决这些问题。接下来，我们提出了新的、严格的评估基准和度量，以准确地测量无约束视频中的嘴唇同步。

Wav2lip提升音频-口型同步的数字人技术解析

在Wav2Lip的训练阶段，专家口型同步判别器保持冻结状态，这意味着判别器在训练过程中不会根据生成的口型信息进行调整。这样的设计是为了防止判别器的判断结果受到生成过程中可能出现的伪影影响，从而确保其能够更...

Wav2Lip:该存储库包含“ Alip Sync专家是您在野外生成嘴唇时所需的全部语音”代码，在ACM Multimedia 2020上发布

03-17

Wav2Lip ：在野外准确地对嘴唇进行同步的视频这段代码是本文的一部分：在ACM Multimedia 2020上发布的嘴唇同步专家是您向野外嘴唇生成演说所需要的一切。 :bookmark_tabs: 原始纸 :newspaper: 项目页面 :cyclone: 演示版 :high_voltage: 现场测试 :notebook_with_decorative_cover: Colab笔记本 :brain: 重新同步强调将视频以口形同步到任何目标语音，且准确性很高 :hundred_points: 。试试我们的。 :sparkles: 适用于任何身份，语音和语言。也适用于CGI人脸和合成声音。提供完整的训练代码，推理代码和预训练模型 :collision: 或者，快速开始使用Google Colab Notebook：。检查点和示例也可以在Google云端硬盘中找到。与此相关的还有一个，由。另外，感谢，还有一个更易用的具有更多有用的功能。 :fire: :fire: 发布了几个新的，可靠的评估基准和度量标准。还提供了计算本文中报告的指标

Easy-Wav2Lip-v8.2.zip

09-26

Easy-Wav2Lip-v8.2.zip

wave2lip训练

sslfk的博客

03-11

1万+

论文：https://arxiv.org/pdf/2008.10010.pdf 训练源码：https://github.com/Rudrabha/Wav2Lip 训练配置：首先必须依赖GPU 下载源码，下载专家判别系统：Sign in to your account 并将模型放到checkpoints文件目录下第一步：准备视频数据，爬取可以通过硕鼠爬取想要的人物说话风格数据第二步：执行preprocess.py，执行命令如下： python preprocess.py --ngpu 1.

windows系统下，搭建wav2lip运行环境

手可摘星河

11-27

591

本文在windows环境下部署wav2lip项目并实现对口型视频导出的步骤。

Wav2Lip安装

易寒的专栏

08-01

6169

安装完成后，在配置中指出的安装路径(–prefix=/usr/local/ffmpeg)下存在以下内容，则说明ffmpeg安装成功。命令行输入“whichffmpeg”或“ffmpeg-h”，出现以下内容，说明ffmpeg已经完全安装配置成功。将ffmpeg的绝对路径添加到PATH环境变量中，以让系统能找到ffmpeg的安装路径。Ubuntu系统-FFmpeg安装及环境配置。中间遇到的问题.如下。在文件中添以下内容。...

数字人解决方案——Wav2lip本地部署

u012148903的博客

04-08

8803

执行安装包.bat命令，本地化安装运行环境包，launcher.py，安装包.bat,代码在文章末尾，复制到Wav2lip文件夹下新建文件，复制源码进去即可。下载地址：https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth。将下载的模型文件放置在face_detection/detection/sfd目录下，并重命名为s3fd.pth。使用conda创建新的虚拟环境并激活。准备Wav2Lip模型文件。