【阅读清单】阶段性待读论文

李加号pluuuus

已于 2024-01-16 16:59:15 修改

阅读量490

点赞数 5

文章标签：计算机视觉

于 2023-12-29 17:04:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57974242/article/details/135293902

版权

1 ChoreoNet: Towards Music to Dance Synthesis with Choreographic Action Unit

（利用舞蹈动作单元为音乐生成舞蹈（music to dance），没开源，20年9月CVPR，code：[2009.07637] ChoreoNet: Towards Music to Dance Synthesis with Choreographic Action Unit (arxiv.org)

参考：基于舞蹈单元的音乐驱动舞蹈：《ChoreoNet: Towards Music to Dance Synthesis with Choreographic Action Unit》 - 知乎 (zhihu.com)【论文分享】ChoreoNet: 利用舞蹈动作单元为音乐生成舞蹈（music to dance） - 知乎 (zhihu.com)）

2 Soundini: Sound-Guided Diffusion for Natural Video Editing

（用于自然视频编辑的声音引导扩散，没开源，23年8月CVPR，效果：Soundini: Sound-Guided Diffusion for Natural Video Editings (kuai-lab.github.io)）

3 Dancing to Music

（GAN，开源，分析合成学习框架，从音乐中生成舞蹈，19年11月CVPR）

4 DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion Models

（没开源，基于生成扩散模型的高质量音频-视觉分离。23年7月CVPR）

5 AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion

（基于文本到图像扩散的音频对齐视频合成，没开源，23年5月CVPR）

6 Long-Term Rhythmic Video Soundtracker

（LORIS，长序列视频配乐模型，开源，23年5月）

7 Prompt-to-Prompt Image Editing with Cross Attention Control

（具有交叉注意力控制的提示对提示图像编辑，开源）

8 DreamPose

9 Style-Controllable Speech-Driven Gesture Synthesis Using Normalising Flows

（基于归一化流的风格可控语音驱动手势合成，2020年计算机图形论坛）

下面几篇都是基于diffusion做Talking Head Generation的文章：

10 Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation

paper：diffused_heads.pdf (mstypulkowski.github.io)

11 Speech Driven Video Editing via an Audio-Conditioned Diffusion Model

paper：[2301.04474] Speech Driven Video Editing via an Audio-Conditioned Diffusion Model (arxiv.org)

12 DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

paper：arxiv.org/pdf/2303.17550.pdf

开源，code： DAE-Talker (daetalker.github.io)

13 DAE-Talker的前置文章DAE (Diffusion Autoencoder)

将DDIM的控制信息编码到类似StyleGAN的隐空间，借此实现与StyleGAN类似的可控图像生成。与StyleGAN不同的是它将latent code分为两部分，分别是有语义意义的线性隐码和捕捉随机细节的“Noise”。

14 MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized Adaptation

Submitted on 15 Dec 2022 (v1), last revised 27 Mar 2023 (this version, v3)

paper：[2212.08062] MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized Adaptation (arxiv.org)

已开源，code：GitHub - Meta-Portrait/MetaPortrait: [CVPR 2023] MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized Adaptation

15 Diffusion Autoencoders: Toward a Meaningful and Decodable Representation

paper：[2111.15640] Diffusion Autoencoders: Toward a Meaningful and Decodable Representation (arxiv.org)

16 GFP-GAN: Towards Real-World Blind Face Restoration with Generative Facial Prior

paper:[2101.04061] Towards Real-World Blind Face Restoration with Generative Facial Prior (arxiv.org)

专注于高清细节恢复。基于生成对抗网络（GAN）的人脸图像生成模型，通过引入人脸先验指导，GFPGAN能够更好地控制生成图像的质量和多样性。很多说话头生成都会在后面直接加一个gfpgan做超分

17 Real-Time Intermediate Flow Estimation for Video Frame Interpolation

paper:[2011.06294] Real-Time Intermediate Flow Estimation for Video Frame Interpolation (arxiv.org)

RIFE，一种插帧方法，可以改善说话头生成效果

可以在我们的解决方案之上应用诸如[Learning trajectory-aware transformer for video superresolution]的视频超分辨率技术，以获得高分辨率的样本。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。