自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(92)
  • 问答 (1)
  • 收藏
  • 关注

原创 【论文阅读+复现】AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

生成肖像动画的挑战:唇部动作、面部表情和头部位置的复杂协调,以创造出逼真的效果。它们依赖于有限容量的生成器来创建视觉内容,如gan[3,17]、NeRF[14,13]或基于运动的解码器[16,8]。这些网络泛化能力有限,并且在生成高质量内容时缺乏稳定性。最近,扩散模型的出现[2,5,9]促进了高质量图像的生成。一些研究在此基础上结合了时间模块。建立在扩散模型的进步,我们介绍AniPortrait,旨在生成高质量的动画肖像由音频和参考图像驱动。AniPortrait分为两个不同的阶段。

2024-03-29 18:44:44 1463 10

原创 【ssh连接】奇奇怪怪报错记录

gitlab配置ssh连接,先跟着教程生成密钥,上传公钥,将服务器信息存入config文件,但是ssh连接超时,搞了两三天别的什么都没干,还是没解决,绝望。尝试加“-v”看看问题出在哪里 ssh -vT [email protected]。尝试ssh -T [email protected]。尝试ping百度,可以,不是网络的问题。已知服务器端没有问题,别人可以登上。尝试ping远程服务器,不通,报错。ping不通服务器,请求超时。

2024-03-25 21:17:27 301

原创 【代码学习】Mediapipe人脸检测使用记录

Mediapipe,每秒200-300帧的实时人脸检测,提取画面中的人脸框,实现后续各种应用:人脸属性识别、表情识别、关键点检测、三维重建、增强现实、AI换妆等

2024-03-22 16:17:21 376

原创 【扩散模型】数学基础和原理解析

其中 time_embedding 和 text_embedding 都是不变的,在每一个块里边都对模型提供当前Unet所处time信息以及全局text的指导信息(就是prompt),Resnet 中 xx_embeding 的生效方式就是直接加上去(简单粗暴),Transformer 中执行交叉注意力来使用指导信息 xx_embeding,大部分区域中 time_embeding 和 text_embeding 也都是直接加和然后当作一个最终 embeding 来用的。

2024-03-19 10:49:59 910

原创 【论文阅读】Scalable Diffusion Models with Transformers

DiT:基于transformer架构的扩散模型。

2024-03-18 20:45:09 462

原创 【论文阅读】DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer

语音驱动的3D面部动画,可以用扩散模型或Transformer架构实现。然而它们的简单组合并没有性能的提升。作者怀疑这是由于缺乏配对的音频-4D数据,这对于Transformer在扩散框架中充当去噪器非常重要。为了解决这个问题,作者提出DiffSpeaker,一个基于Transformer的网络,设计了有偏条件注意模块,用作传统Transformer中自注意力/交叉注意力的替代。融入偏置,引导注意机制集中在相关任务特定和与扩散相关的条件上。还探讨了在扩散范式内精确的嘴唇同步和非语言面部表情之间的权衡。

2024-03-17 21:45:44 1196

原创 【论文阅读】Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation

现有方法在创建自然面部外观、保持真实表情和动作方面仍然存在困难,同时在生成过程中仍需要额外的监督。首先,GAN 的训练困难,需要广泛的架构搜索和参数调整才能收敛。基于 GAN 的面部动画方法的训练稳定性可以通过使用额外的指导,如面具或引导帧来指导生成过程来改善。然而,这使它们局限于面部再现的应用,并降低了产生头部动作和面部表情的能力。此外,GAN 的训练通常会导致模态崩溃,即生成器无法生成覆盖整个数据分布支持的样本,而是只学习生成几个唯一的样本 [1]。

2024-03-16 17:40:12 1107

原创 【论文阅读】EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusi

在弱条件下使用音视频扩散模型生成富有表现力的肖像视频(音频+图像=动态视频)

2024-03-16 12:23:33 1041

原创 【论文阅读】DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking F

基于扩散的逼真情感音频驱动的单张图像说话人脸生成方法。语音驱动下,DREAM-Talk 可同时实现准确的口型同步和自然的情感表达,生成逼真的动态对话人脸。

2024-03-14 21:12:50 887

原创 【论文复现】摩尔线程版AnimateAnyone

Inference没啥难度,按照readme来就行,就是分开下载权重比较慢,注意权重文件严格按照文档目录树来放。用MEAD数据集试一下。

2024-03-08 21:24:33 551

原创 【调试记录】vscode远程连接问题汇总

vscode进行远程ssh链接

2024-03-07 17:42:11 705

原创 【代码学习】EAT复现+代码分析

论文:Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation。

2024-03-07 17:05:10 390

原创 【代码学习】扩散模型原理+代码

基础代码学习

2024-03-06 15:22:38 664

原创 【论文复现】Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation (EAT)

EAT:高效的情感适应音频驱动的说话头生成。

2024-03-02 20:31:10 936

原创 【论文复现】Implicit Identity Representation Conditioned Memory Compensation Network for Talking Head Vide

任务目标:给定静态源图像和动态驱动视频,生成talking head视频。动机:Talking head视频生成的目的是利用目标驱动视频中获得的运动信息,在静态目标图像中使用动态姿态和表情来驱动人脸,同时保留目标人物ID。然而,驱动视频中剧烈复杂的运动会导致模糊生成,因为静止的目标图像不能为被遮挡区域或细微的表情变化提供足够的外观信息,从而产生严重的伪影,显著降低了生成质量。方法:提出学习一个全局的人脸表征空间,并设计一个新的隐式身份表征条件记忆补偿网络,即MCNet,用于高保真的说话头生成。

2024-01-30 00:15:01 916

原创 【论文复现】DCFace: Synthetic Face Generation with Dual Condition Diffusion Model

DCFace: 用双条件扩散模型生成合成人脸。

2024-01-29 21:05:52 495 3

原创 【论文收集】

本文提出VideoReTalking,一种新的系统,根据输入音频编辑真实世界的说话头视频的人脸,即使具有不同的情感,也能产生高质量的和对口型的输出视频。我们模型的另一个独特优势是,由于我们的模型基于扩散模型,它可以同时满足重构和编辑能力,并且对野外人脸视频中的边缘情况(例如遮挡的人脸)具有鲁棒性,而不像现有的基于GAN的方法那样容易受到影响。基于观察,本文提出一种新的统一框架,基于预训练的StyleGAN,实现一套强大的功能,即高分辨率视频生成,通过驱动视频或音频来解耦控制,以及灵活的人脸编辑。

2024-01-29 11:26:33 960

原创 【论文阅读】Vlogger: Make Your Dream A Vlog

Vlogger:把你的梦想变成Vlog

2024-01-28 20:18:08 781

原创 【论文复现】CVTHead: One-shot Controllable Head Avatar with Vertex-feature Transformer

动机:现有的3DMM显式面部控制的方法通常依赖于单个对象的多视图图像或视频,重建过程复杂。此外,传统的渲染非常耗时,限制了实时动画的可能性。本文介绍了cvhead,一种使用基于点的神经渲染从单个参考图像生成可控神经头部头像的方法。cvhead将网格的稀疏顶点作为点集,并使用提出的顶点特征转换器来学习每个顶点的局部特征描述符。这样就可以对所有顶点之间的远程依赖关系进行建模。

2024-01-28 19:17:31 822

原创 【论文复现】HyperLips: Hyper Control Lips with High Resolution Decoder for Talking Face Generation

具有高分辨率解码器的超控制嘴唇,用于说话人脸生成。

2024-01-28 18:41:53 786

原创 【思路合集】talking head generation+stable diffusion

针对训练速度慢,算力消耗大的问题:作者尝试在潜空间中进行训练以加快训练速度,但是样本质量下降,因此在像素空间中操作,且只能训练128x128大小的数据。改进模型的训练速度对我们来说是首要任务,这将使我们能够在更大、更多样化的“野外”数据集上进行训练,如VoxCeleb [45]或LRS [12]。希望尝试用LDM的方法训练,看如何在latent space训练且不降低样本质量。语音条件:计划探索使用更广泛的语音特征作为模型条件的潜力,例如使用预训练的音频编码器。

2024-01-23 18:20:07 1243

原创 【论文阅读】SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Ta

SadTalker:学习逼真的3D动作系数,用于风格化的音频驱动单张图像说话人脸动画

2024-01-22 20:31:17 990 1

原创 【论文阅读】Speech Driven Video Editing via an Audio-Conditioned Diffusion Model

DiffusionVideoEditing:基于音频条件扩散模型的语音驱动视频编辑

2024-01-16 00:27:06 1293 1

原创 【思路】stable diffusion应用场景细分及实现设想

通过调整风格编码或其他控制参数,可以对生成的姿势序列进行精确的控制,以满足特定的音乐风格要求。通过使用稳定扩散,可以根据音频特征来引导网络生成相应的姿势,并确保姿势序列与音频的节奏、情感或其他特征相匹配。表情动画生成:结合人脸姿势和表情建模以及表情特征,生成具有逼真和连贯表情的动画序列。姿势合成和转换:根据生成的姿势序列,可以进行后处理和优化,确保流畅和连贯性。可控性参数:提供一些可调整的参数,如动画速度、颜色变化强度或特效出现的频率等,使用户可以根据需要对生成的音乐视频进行自定义和调整。

2024-01-07 17:01:40 760

原创 【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models

DreamTalk:当表情丰富的说话人头生成遇到扩散概率模型

2024-01-06 19:50:40 1080

原创 【复现】DiffTalk

问题1. ERROR: Failed building wheel for pysptk。

2024-01-06 17:55:48 651 9

原创 这是一个小小的炫耀

虽然是共用的,且只能用后4张,但还是很开心(*^▽^*)呜呜这辈子没摸过这么多A100,激动的心颤抖的手

2024-01-05 16:31:51 378

原创 【论文阅读】DiffTalk: Crafting Diffusion Models forGeneralized Audio-Driven Portraits Animation

DiffTalk:制作通用音频驱动肖像动画的扩散模型。

2024-01-04 21:46:53 1170

原创 【阅读清单】阶段性待读论文

(用于自然视频编辑的声音引导扩散,没开源,23年8月CVPR,效果:Soundini: Sound-Guided Diffusion for Natural Video Editings (kuai-lab.github.io))(GAN,开源,分析合成学习框架,从音乐中生成舞蹈,19年11月CVPR)(基于文本到图像扩散的音频对齐视频合成,没开源,23年5月CVPR)(基于归一化流的风格可控语音驱动手势合成,2020年计算机图形论坛)(LORIS,长序列视频配乐模型,开源,23年5月)

2023-12-29 17:04:36 378

原创 【论文阅读】AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion

AADiff:基于文本到图像扩散的音频对齐视频合成。

2023-12-29 15:05:58 1556

原创 【论文阅读】Realtime multi-person 2d pose estimation using part affinity fields

OpenPose:使用部分亲和场的实时多人2D姿势估计。

2023-12-27 21:37:39 888

原创 【论文阅读+复现】SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

SparseCtrl:在文本到视频扩散模型中添加稀疏控制。(AnimateDiff V3,官方版AnimateDiff+ControlNet,效果很丝滑)

2023-12-27 21:16:22 2845 7

原创 【资源】stable diffusion常用checkpoint

翻墙下载实在太慢了,还不稳定,就把常用的一些checkpoint传网盘了,需要自取~

2023-12-26 20:29:49 825 2

原创 【复现】FreeU以及结合stable diffusion

才发现AnimateDiff更新v3了,以及又发了篇CVPR的改进工作:在这个版本中,我们通过域适配器LoRA对图像模型进行了微调,以便在推理时具有更大的灵活性。实现了两个(RGB图像/scribble) SparseCtrl编码器,可以采用固定数量的条件映射来控制生成过程。域适配器是一个在训练视频数据集的静态帧上进行训练的LoRA模块。这个过程是在训练运动模块之前完成的,并帮助运动模块专注于运动建模,如下图所示。在推理时,通过调整域适配器的LoRA尺度,可以去除训练视频的一些视觉属性,如水印。

2023-12-26 20:29:45 774 2

原创 【论文阅读】Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

动画化Anyone:用于角色动画的一致且可控的图像到视频合成。

2023-12-21 21:00:18 1310 1

转载 【转载】Stable Diffusion运行原理

AIGC新手教程

2023-12-21 18:48:18 107

原创 【论文阅读】FreeU: Free Lunch in Diffusion U-Net

FreeU: 无需训练直接提升扩散模型生成效果。

2023-12-19 21:44:10 992 1

原创 【复现】AnimateDiff ControlNet Pipeline复现过程记录

似乎不用全下载,目前只用到了pipeline_animatediff_controlnet.py和anidi.py(readme中的AnimateDiff ControlNet Pipeline粘出来)pipeline_animatediff_controlnet.py文件中的主类名要改成pipeline_animatediff_controlnet。上一次尝试没用的原因可能是有的地方的参数遗漏了,要保持所有地方同步。改为自己的绝对路径,custom_pipeline也要改,指向py文件。

2023-12-19 21:43:26 829

原创 【论文阅读】LoRA: Low-Rank Adaptation of Large Language Models

本文中的重新参数化(重参数化),只有A和B是可训练的。上图中,左边的蓝色的部分,冻住了。右边的橙色部分,是可训练的。注意,r = rank,即矩阵的秩,可以是非常小的一个量。(例如,r=1, 2 在上面图1中)上面还有个+号,是把左右两个分支,合并起来了。下面的输入是x,一个d维度(例如,可以是d=12288)的向量;上面的输出是h,也是一个向量。

2023-12-14 19:34:16 1085

原创 【论文阅读】MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA

Make-a-video:没有文本-视频数据的文本-视频生成。

2023-12-13 19:15:58 560

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除