干货教程【AI篇】| 开源AI数字人工具SadTalker环境搭建和使用教程

本文介绍了一种方便好用的AI数字人生成方法,打包好了整个软件包并配备了完整的使用教程。

整合包获取地址

回复关键词【SadTalker】获取整合包
一张包含人像的照片和一段语音,如何让照片中的人物开口说话?

一段包含人物视频和一段语音,如何给视频配上语音,并使得视频中的人物口型和语音匹配?

如果你遇到以上两种场景,那么本教程或许可以帮到你,目前开源免费的主流嘴音同步AI工具主要有以下几个

Wav2Lip

开源地址:https://github.com/Rudrabha/Wav2Lip
只支持语音驱动视频嘴型同步, 效果一般,可能需要自己去训练模型才可以得到比较好的效果 还提供了一个在线试用版的,选用sync1.6.0模型效果非常不错,打开此地址在线试用

Easy-Wav2Lip

开源地址:https://github.com/anothermartz/Easy-Wav2Lip
基于Wav2Lip做了改进,效果和速度有所提升,但个人感觉效果还是一般

AniPortrait

开源地址:https://github.com/Zejun-Yang/AniPortrait
腾讯开源的,支持自驱动和脸部重演(类似于换脸),音频驱动(照片开口说话),效果还不错

video-retalking

开源地址:https://github.com/OpenTalker/video-retalking
只支持语音驱动视频嘴型同步,但效果感觉比 Wav2Lip系列的要好

SadTalker

开源地址:https://github.com/OpenTalker/SadTalker
与video-retalking效果差不多,两者用到的技术基本一致,但支持图片输入

SadTalker-Video-Lip-Sync

开源地址:https://github.com/Zz-ww/SadTalker-Video-Lip-Sync
基于SadTalker对视频做了补帧等优化,效果更加自然。作者做了个比较,感兴趣的可以移步github看下比较结果

从易用性来讲,上述的提到的这几种嘴型同步工具,都只能通过源码搭建环境去运行使用,还是比较复杂的,有的提供了Stable Diffusion插件,对SD熟悉的小伙伴可以自行搜索安装

从生成效果上来讲,对比下来我个人觉得SadTalker效果还比较不错,而且同时支持视频和图片输入。所以本篇主要对SadTalker的环境搭建和使用做一个详细介绍。

觉得搭建环境麻烦的小伙伴可以下载我的整合包,点击【一键启动.bat】去运行,按照使用说明去修改运行参数。整合包获取方式:

关注文章底部公众号回复关键词【SadTalker】获取整合包

基础软件安装

显卡驱动、Git、ffmpeg、Anaconda安装这些我就不再详细介绍了,可以参考Rope源码运行环境搭建这篇博客去安装这些基础软件。另外如果是window10/11的小伙伴可以使用 winget 在终端安装这些软件更加方便,可以在终端通过 “winget search 软件名字” 去搜素,复制id后通过 “winget install 软件id” 去安装。

源码下载及运行环境搭建

打开Power Shell终端,按照以下步骤运行,注意windows下不要拷贝带#的注释

# 1. 下载源码,clone失败的话,可以去github下载压缩包解压代替这一步
git clone https://github.com/OpenTalker/SadTalker.git
# 如果上不去github欢迎关注文章底部的公众号回复【SadTalker】获取整合包
# 2. 进入源码文件夹
cd SadTalker 
# 3,创建conda虚拟环境
conda create -n sadtalker python=3.8
# 4,激活虚拟环境
conda activate sadtalker
# 5. 安装torch,一个深度学习框架
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
# 6. 安装软件运行所需的依赖库
pip install -r requirements.txt

模型下载及放置

可以去github下载checkpoints模型放置到checkpoints文件夹中;下载weights模型放置到gfgan/weights文件夹中。也可以去我的百度网盘上下载打包好的,下载完成后模型列表如下:
在这里插入图片描述

运行SadTalker源码

打开Power Shell终端运行,注意windows下不要拷贝带#的注释

# 1. 进入源码文件夹
cd SadTalker 
# 2,进入虚拟环境
conda activate sadtalker
# 3. 运行代码进行推理, examples中放置了测试资源, 全身视频,可以加--still参数
python inference.py --driven_audio ./examples/driven_audio/chinese_poem2.wav --source_image ./examples/source_image/full_body_2.png  --result_dir ./examples/ref_video --still --preprocess full --enhancer gfpgan

主要参数解释:

--driven_audio:音频的路径位置,具体到某个音频,wav格式
--source_image:视频或者图片路径,具体到某个图像或者视频
--result_dir:结果视频生成的位置,具体到某个文件夹

运行成功后会出现以下界面图片
在这里插入图片描述
生成效果如下:

视频生成效果

关注下方公众号回复关键词【SadTalker】获取整合包

  • 36
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
### 回答1: Spark Streaming 和 Flink 都是流处理框架,但在一些方面有所不同。 1. 数据处理模型 Spark Streaming 基于批处理模型,将流数据分成一批批进行处理。而 Flink 则是基于流处理模型,可以实时处理数据流。 2. 窗口处理 Spark Streaming 的窗口处理是基于时间的,即将一段时间内的数据作为一个窗口进行处理。而 Flink 的窗口处理可以基于时间和数据量,可以更加灵活地进行窗口处理。 3. 状态管理 Spark Streaming 的状态管理是基于 RDD 的,需要将状态存储在内存中。而 Flink 的状态管理是基于内存和磁盘的,可以更加灵活地管理状态。 4. 容错性 Flink 的容错性比 Spark Streaming 更加强大,可以在节点故障时快速恢复,而 Spark Streaming 则需要重新计算整个批次的数据。 总的来说,Flink 在流处理方面更加强大和灵活,而 Spark Streaming 则更适合批处理和数据仓库等场景。 ### 回答2: Spark Streaming 和 Flink 都是流处理框架,它们都支持低延迟的流处理和高吞吐量的批处理。但是,它们在处理数据流的方式和性能上有许多不同之处。下面是它们的详细比较: 1. 处理模型 Spark Streaming 采用离散化流处理模型(DPM),将长周期的数据流划分为离散化的小批量,每个批次的数据被存储在 RDD 中进行处理,因此 Spark Streaming 具有较好的容错性和可靠性。而 Flink 采用连续流处理模型(CPM),能够在其流处理过程中进行事件时间处理和状态管理,因此 Flink 更适合处理需要精确时间戳和状态管理的应用场景。 2. 数据延迟 Spark Streaming 在处理数据流时会有一定的延迟,主要是由于对数据进行缓存和离散化处理的原因。而 Flink 的数据延迟比 Spark Streaming 更低,因为 Flink 的数据处理和计算过程是实时进行的,不需要缓存和离散化处理。 3. 机器资源和负载均衡 Spark Streaming 采用了 Spark 的机器资源调度和负载均衡机制,它们之间具有相同的容错和资源管理特性。而 Flink 使用 Yarn 和 Mesos 等分布式计算框架进行机器资源调度和负载均衡,因此 Flink 在大规模集群上的性能表现更好。 4. 数据窗口处理 Spark Streaming 提供了滑动、翻转和窗口操作等灵活的数据窗口处理功能,可以使用户更好地控制数据处理的逻辑。而 Flink 也提供了滚动窗口和滑动窗口处理功能,但相对于 Spark Streaming 更加灵活,可以在事件时间和处理时间上进行窗口处理,并且支持增量聚合和全量聚合两种方式。 5. 集成生态系统 Spark Streaming 作为 Apache Spark 的一部分,可以充分利用 Spark 的分布式计算和批处理生态系统,并且支持许多不同类型的数据源,包括Kafka、Flume和HDFS等。而 Flink 提供了完整的流处理生态系统,包括流SQL查询、流机器学习和流图形处理等功能,能够灵活地适应不同的业务场景。 总之,Spark Streaming 和 Flink 都是出色的流处理框架,在不同的场景下都能够发挥出很好的性能。选择哪种框架取决于实际需求和业务场景。 ### 回答3: Spark Streaming和Flink都是流处理引擎,但它们的设计和实现方式有所不同。在下面的对比中,我们将比较这两种流处理引擎的主要特点和差异。 1. 处理模型 Spark Streaming采用离散流处理模型,即将数据按时间间隔分割成一批一批数据进行处理。这种方式可以使得Spark Streaming具有高吞吐量和低延迟,但也会导致数据处理的粒度比较粗,难以应对大量实时事件的高吞吐量。 相比之下,Flink采用连续流处理模型,即数据的处理是连续的、实时的。与Spark Streaming不同,Flink的流处理引擎能够应对各种不同的实时场景。Flink的实时流处理能力更强,因此在某些特定的场景下,它的性能可能比Spark Streaming更好。 2. 窗口计算 Spark Streaming内置了许多的窗口计算支持,如滑动窗口、滚动窗口,但支持的窗口计算的灵活性较低,只适合于一些简单的窗口计算。而Flink的窗口计算支持非常灵活,可以支持任意窗口大小或滑动跨度。 3. 数据库支持 在处理大数据时,存储和读取数据是非常重要的。Spark Streaming通常使用HDFS作为其数据存储底层的系统。而Flink支持许多不同的数据存储形式,包括HDFS,以及许多其他开源和商业的数据存储,如Kafka、Cassandra和Elasticsearch等。 4. 处理性能 Spark Streaming的性能比Flink慢一些,尤其是在特定的情况下,例如在处理高吞吐量的数据时,在某些情况下可能受制于分批处理的架构。Flink通过其流处理模型和不同的调度器和优化器来支持更高效的实时数据处理。 5. 生态系统 Spark有着庞大的生态系统,具有成熟的ML库、图处理库、SQL框架等等。而Flink的生态系统相对较小,但它正在不断地发展壮大。 6. 规模性 Spark Streaming适用于规模小且不太复杂的项目。而Flink可扩展性更好,适用于更大、更复杂的项目。Flink也可以处理无限制的数据流。 综上所述,Spark Streaming和Flink都是流处理引擎,它们有各自的优缺点。在选择使用哪一个流处理引擎时,需要根据实际业务场景和需求进行选择。如果你的业务场景较为复杂,需要处理海量数据并且需要比较灵活的窗口计算支持,那么Flink可能是更好的选择;如果你只需要简单的流处理和一些通用的窗口计算,Spark Streaming是更为简单的选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

铃灵狗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值