自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(98)
  • 问答 (1)
  • 收藏
  • 关注

原创 【TTS】EmotiVoice : a Multi-Voice and Prompt-Controlled TTS Engine

尝试训练自己的语音模型。

2024-07-08 00:12:49 319

原创 【原理+使用】DeepCache: Accelerating Diffusion Models for Free

DeepCache是一种新颖的无训练且几乎无损的范式,从模型架构的角度加速了扩散模型。DeepCache利用 扩散模型顺序去噪步骤中观察到的固有时间冗余,缓存和检索相邻去噪阶段的特征,从而减少冗余计算。利用U-Net的特性,重用高级特征,同时以低成本的方式更新低级特征。将 Stable Diffusion v1.5 加速了 2.3 倍,CLIP 分数仅下降了 0.05 倍,LDM-4-G(ImageNet) 加速了 4.1 倍,FID 降低了 0.22。

2024-07-07 15:01:20 1198

原创 【论文阅读】AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising

简介:异步去噪并行化扩散模型。提出了一种新的扩散模型分布式加速方法,该方法在对生成质量影响最小的情况下显著降低了推理延迟。原理:用异步过程取代顺序去噪过程,允许去噪模型的每个组件在不同的设备上独立运行。动机:扩散模型的多步顺序去噪特性导致了高累积延迟,无法并行计算。AsyncDiff是一个通用的即插即用加速方案,可以跨多个设备实现模型并行,将噪声预测模型分成多个组件,并将每个组件分配给不同的设备。为了打破组件之间的依赖链,它利用连续扩散步骤中隐藏状态之间的高度相似性,将传统的顺序去噪转换为异步过程。

2024-07-07 13:51:56 563

原创 【论文阅读】LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control

代码:

2024-07-06 20:47:40 243

原创 【扩散模型】LCM LoRA:一个通用的Stable Diffusion加速模块

潜在扩散模型(Latent Diffusion models, ldm)在高分辨率图像合成方面取得了显著的成果。然而,迭代采样过程计算量大,导致生成速度慢。受一致性模型的启发,我们提出了潜在一致性模型(Latent Consistency Models, lcm),能够在任何预训练的ldm上以最小的步骤进行快速推理,包括稳定扩散。原理:将引导反向扩散过程视为求解增强概率流ODE (PF-ODE), lcm设计用于直接预测潜在空间中此类ODE的解,从而减少了多次迭代的需要,并允许快速,高保真采样。

2024-07-06 17:27:12 1310 1

原创 【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time

我们设计并训练了一个具有表现力和可分离特征的面部潜在学习框架,该框架基于真实面部视频。然后,我们训练一个简单但功能强大的扩散变换器,用于建模运动分布,并在测试时根据音频和其他条件生成运动潜在编码。不直接生成视频帧,而是在潜在空间中生成整体面部动态和头部运动,条件是音频和其他信号。给定这些运动潜在编码,通过面部解码器生成视频帧,还接受从输入图像中提取的外观和身份特征作为输入。构建了一个面部潜在空间并训练面部编码器和解码器。

2024-07-05 11:38:06 257 1

原创 【论文阅读+复现】AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

生成肖像动画的挑战:唇部动作、面部表情和头部位置的复杂协调,以创造出逼真的效果。它们依赖于有限容量的生成器来创建视觉内容,如gan[3,17]、NeRF[14,13]或基于运动的解码器[16,8]。这些网络泛化能力有限,并且在生成高质量内容时缺乏稳定性。最近,扩散模型的出现[2,5,9]促进了高质量图像的生成。一些研究在此基础上结合了时间模块。建立在扩散模型的进步,我们介绍AniPortrait,旨在生成高质量的动画肖像由音频和参考图像驱动。AniPortrait分为两个不同的阶段。

2024-03-29 18:44:44 2391 15

原创 【ssh连接】奇奇怪怪报错记录

gitlab配置ssh连接,先跟着教程生成密钥,上传公钥,将服务器信息存入config文件,但是ssh连接超时,搞了两三天别的什么都没干,还是没解决,绝望。尝试加“-v”看看问题出在哪里 ssh -vT git@github.com。尝试ssh -T git@github.com。尝试ping百度,可以,不是网络的问题。已知服务器端没有问题,别人可以登上。尝试ping远程服务器,不通,报错。ping不通服务器,请求超时。

2024-03-25 21:17:27 418

原创 【代码学习】Mediapipe人脸检测使用记录

Mediapipe,每秒200-300帧的实时人脸检测,提取画面中的人脸框,实现后续各种应用:人脸属性识别、表情识别、关键点检测、三维重建、增强现实、AI换妆等

2024-03-22 16:17:21 531

原创 【扩散模型】数学基础和原理解析

其中 time_embedding 和 text_embedding 都是不变的,在每一个块里边都对模型提供当前Unet所处time信息以及全局text的指导信息(就是prompt),Resnet 中 xx_embeding 的生效方式就是直接加上去(简单粗暴),Transformer 中执行交叉注意力来使用指导信息 xx_embeding,大部分区域中 time_embeding 和 text_embeding 也都是直接加和然后当作一个最终 embeding 来用的。

2024-03-19 10:49:59 1132

原创 【论文阅读】Scalable Diffusion Models with Transformers

DiT:基于transformer架构的扩散模型。

2024-03-18 20:45:09 507

原创 【论文阅读】DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer

语音驱动的3D面部动画,可以用扩散模型或Transformer架构实现。然而它们的简单组合并没有性能的提升。作者怀疑这是由于缺乏配对的音频-4D数据,这对于Transformer在扩散框架中充当去噪器非常重要。为了解决这个问题,作者提出DiffSpeaker,一个基于Transformer的网络,设计了有偏条件注意模块,用作传统Transformer中自注意力/交叉注意力的替代。融入偏置,引导注意机制集中在相关任务特定和与扩散相关的条件上。还探讨了在扩散范式内精确的嘴唇同步和非语言面部表情之间的权衡。

2024-03-17 21:45:44 1385

原创 【论文阅读】Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation

现有方法在创建自然面部外观、保持真实表情和动作方面仍然存在困难,同时在生成过程中仍需要额外的监督。首先,GAN 的训练困难,需要广泛的架构搜索和参数调整才能收敛。基于 GAN 的面部动画方法的训练稳定性可以通过使用额外的指导,如面具或引导帧来指导生成过程来改善。然而,这使它们局限于面部再现的应用,并降低了产生头部动作和面部表情的能力。此外,GAN 的训练通常会导致模态崩溃,即生成器无法生成覆盖整个数据分布支持的样本,而是只学习生成几个唯一的样本 [1]。

2024-03-16 17:40:12 1211

原创 【论文阅读】EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusi

在弱条件下使用音视频扩散模型生成富有表现力的肖像视频(音频+图像=动态视频)

2024-03-16 12:23:33 1371

原创 【论文阅读】DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking F

基于扩散的逼真情感音频驱动的单张图像说话人脸生成方法。语音驱动下,DREAM-Talk 可同时实现准确的口型同步和自然的情感表达,生成逼真的动态对话人脸。

2024-03-14 21:12:50 1043

原创 【论文复现】摩尔线程版AnimateAnyone

Inference没啥难度,按照readme来就行,就是分开下载权重比较慢,注意权重文件严格按照文档目录树来放。用MEAD数据集试一下。

2024-03-08 21:24:33 896

原创 【调试记录】vscode远程连接问题汇总

vscode进行远程ssh链接

2024-03-07 17:42:11 1000

原创 【代码学习】EAT复现+代码分析

论文:Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation。

2024-03-07 17:05:10 443

原创 【代码学习】扩散模型原理+代码

基础代码学习

2024-03-06 15:22:38 1599

原创 【论文复现】Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation (EAT)

EAT:高效的情感适应音频驱动的说话头生成。

2024-03-02 20:31:10 1055

原创 【论文复现】Implicit Identity Representation Conditioned Memory Compensation Network for Talking Head Vide

任务目标:给定静态源图像和动态驱动视频,生成talking head视频。动机:Talking head视频生成的目的是利用目标驱动视频中获得的运动信息,在静态目标图像中使用动态姿态和表情来驱动人脸,同时保留目标人物ID。然而,驱动视频中剧烈复杂的运动会导致模糊生成,因为静止的目标图像不能为被遮挡区域或细微的表情变化提供足够的外观信息,从而产生严重的伪影,显著降低了生成质量。方法:提出学习一个全局的人脸表征空间,并设计一个新的隐式身份表征条件记忆补偿网络,即MCNet,用于高保真的说话头生成。

2024-01-30 00:15:01 948

原创 【论文复现】DCFace: Synthetic Face Generation with Dual Condition Diffusion Model

DCFace: 用双条件扩散模型生成合成人脸。

2024-01-29 21:05:52 611 4

原创 【论文收集】

本文提出VideoReTalking,一种新的系统,根据输入音频编辑真实世界的说话头视频的人脸,即使具有不同的情感,也能产生高质量的和对口型的输出视频。我们模型的另一个独特优势是,由于我们的模型基于扩散模型,它可以同时满足重构和编辑能力,并且对野外人脸视频中的边缘情况(例如遮挡的人脸)具有鲁棒性,而不像现有的基于GAN的方法那样容易受到影响。基于观察,本文提出一种新的统一框架,基于预训练的StyleGAN,实现一套强大的功能,即高分辨率视频生成,通过驱动视频或音频来解耦控制,以及灵活的人脸编辑。

2024-01-29 11:26:33 1093

原创 【论文阅读】Vlogger: Make Your Dream A Vlog

Vlogger:把你的梦想变成Vlog

2024-01-28 20:18:08 833

原创 【论文复现】CVTHead: One-shot Controllable Head Avatar with Vertex-feature Transformer

动机:现有的3DMM显式面部控制的方法通常依赖于单个对象的多视图图像或视频,重建过程复杂。此外,传统的渲染非常耗时,限制了实时动画的可能性。本文介绍了cvhead,一种使用基于点的神经渲染从单个参考图像生成可控神经头部头像的方法。cvhead将网格的稀疏顶点作为点集,并使用提出的顶点特征转换器来学习每个顶点的局部特征描述符。这样就可以对所有顶点之间的远程依赖关系进行建模。

2024-01-28 19:17:31 872

原创 【论文复现】HyperLips: Hyper Control Lips with High Resolution Decoder for Talking Face Generation

具有高分辨率解码器的超控制嘴唇,用于说话人脸生成。

2024-01-28 18:41:53 881

原创 【思路合集】talking head generation+stable diffusion

针对训练速度慢,算力消耗大的问题:作者尝试在潜空间中进行训练以加快训练速度,但是样本质量下降,因此在像素空间中操作,且只能训练128x128大小的数据。改进模型的训练速度对我们来说是首要任务,这将使我们能够在更大、更多样化的“野外”数据集上进行训练,如VoxCeleb [45]或LRS [12]。希望尝试用LDM的方法训练,看如何在latent space训练且不降低样本质量。语音条件:计划探索使用更广泛的语音特征作为模型条件的潜力,例如使用预训练的音频编码器。

2024-01-23 18:20:07 1469

原创 【论文阅读】SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Ta

SadTalker:学习逼真的3D动作系数,用于风格化的音频驱动单张图像说话人脸动画

2024-01-22 20:31:17 1182 1

原创 【论文阅读】Speech Driven Video Editing via an Audio-Conditioned Diffusion Model

DiffusionVideoEditing:基于音频条件扩散模型的语音驱动视频编辑

2024-01-16 00:27:06 1379 1

原创 【思路】stable diffusion应用场景细分及实现设想

通过调整风格编码或其他控制参数,可以对生成的姿势序列进行精确的控制,以满足特定的音乐风格要求。通过使用稳定扩散,可以根据音频特征来引导网络生成相应的姿势,并确保姿势序列与音频的节奏、情感或其他特征相匹配。表情动画生成:结合人脸姿势和表情建模以及表情特征,生成具有逼真和连贯表情的动画序列。姿势合成和转换:根据生成的姿势序列,可以进行后处理和优化,确保流畅和连贯性。可控性参数:提供一些可调整的参数,如动画速度、颜色变化强度或特效出现的频率等,使用户可以根据需要对生成的音乐视频进行自定义和调整。

2024-01-07 17:01:40 833

原创 【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models

DreamTalk:当表情丰富的说话人头生成遇到扩散概率模型

2024-01-06 19:50:40 1219

原创 【复现】DiffTalk

问题1. ERROR: Failed building wheel for pysptk。

2024-01-06 17:55:48 726 9

原创 这是一个小小的炫耀

虽然是共用的,且只能用后4张,但还是很开心(*^▽^*)呜呜这辈子没摸过这么多A100,激动的心颤抖的手

2024-01-05 16:31:51 390

原创 【论文阅读】DiffTalk: Crafting Diffusion Models forGeneralized Audio-Driven Portraits Animation

DiffTalk:制作通用音频驱动肖像动画的扩散模型。

2024-01-04 21:46:53 1343

原创 【阅读清单】阶段性待读论文

(用于自然视频编辑的声音引导扩散,没开源,23年8月CVPR,效果:Soundini: Sound-Guided Diffusion for Natural Video Editings (kuai-lab.github.io))(GAN,开源,分析合成学习框架,从音乐中生成舞蹈,19年11月CVPR)(基于文本到图像扩散的音频对齐视频合成,没开源,23年5月CVPR)(基于归一化流的风格可控语音驱动手势合成,2020年计算机图形论坛)(LORIS,长序列视频配乐模型,开源,23年5月)

2023-12-29 17:04:36 419

原创 【论文阅读】AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion

AADiff:基于文本到图像扩散的音频对齐视频合成。

2023-12-29 15:05:58 1608

原创 【论文阅读】Realtime multi-person 2d pose estimation using part affinity fields

OpenPose:使用部分亲和场的实时多人2D姿势估计。

2023-12-27 21:37:39 988

原创 【论文阅读+复现】SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

SparseCtrl:在文本到视频扩散模型中添加稀疏控制。(AnimateDiff V3,官方版AnimateDiff+ControlNet,效果很丝滑)

2023-12-27 21:16:22 3389 7

原创 【资源】stable diffusion常用checkpoint

翻墙下载实在太慢了,还不稳定,就把常用的一些checkpoint传网盘了,需要自取~

2023-12-26 20:29:49 1060 2

原创 【复现】FreeU以及结合stable diffusion

才发现AnimateDiff更新v3了,以及又发了篇CVPR的改进工作:在这个版本中,我们通过域适配器LoRA对图像模型进行了微调,以便在推理时具有更大的灵活性。实现了两个(RGB图像/scribble) SparseCtrl编码器,可以采用固定数量的条件映射来控制生成过程。域适配器是一个在训练视频数据集的静态帧上进行训练的LoRA模块。这个过程是在训练运动模块之前完成的,并帮助运动模块专注于运动建模,如下图所示。在推理时,通过调整域适配器的LoRA尺度,可以去除训练视频的一些视觉属性,如水印。

2023-12-26 20:29:45 1292 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除