论文阅读
文章平均质量分 92
李加号pluuuus
你好呀
展开
-
【论文阅读+复现】AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation
生成肖像动画的挑战:唇部动作、面部表情和头部位置的复杂协调,以创造出逼真的效果。它们依赖于有限容量的生成器来创建视觉内容,如gan[3,17]、NeRF[14,13]或基于运动的解码器[16,8]。这些网络泛化能力有限,并且在生成高质量内容时缺乏稳定性。最近,扩散模型的出现[2,5,9]促进了高质量图像的生成。一些研究在此基础上结合了时间模块。建立在扩散模型的进步,我们介绍AniPortrait,旨在生成高质量的动画肖像由音频和参考图像驱动。AniPortrait分为两个不同的阶段。原创 2024-03-29 18:44:44 · 2098 阅读 · 12 评论 -
【论文阅读】Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation
现有方法在创建自然面部外观、保持真实表情和动作方面仍然存在困难,同时在生成过程中仍需要额外的监督。首先,GAN 的训练困难,需要广泛的架构搜索和参数调整才能收敛。基于 GAN 的面部动画方法的训练稳定性可以通过使用额外的指导,如面具或引导帧来指导生成过程来改善。然而,这使它们局限于面部再现的应用,并降低了产生头部动作和面部表情的能力。此外,GAN 的训练通常会导致模态崩溃,即生成器无法生成覆盖整个数据分布支持的样本,而是只学习生成几个唯一的样本 [1]。原创 2024-03-16 17:40:12 · 1190 阅读 · 0 评论 -
【论文阅读】DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking F
基于扩散的逼真情感音频驱动的单张图像说话人脸生成方法。语音驱动下,DREAM-Talk 可同时实现准确的口型同步和自然的情感表达,生成逼真的动态对话人脸。原创 2024-03-14 21:12:50 · 1004 阅读 · 0 评论 -
【论文复现】Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation (EAT)
EAT:高效的情感适应音频驱动的说话头生成。原创 2024-03-02 20:31:10 · 1024 阅读 · 0 评论 -
【论文复现】Implicit Identity Representation Conditioned Memory Compensation Network for Talking Head Vide
任务目标:给定静态源图像和动态驱动视频,生成talking head视频。动机:Talking head视频生成的目的是利用目标驱动视频中获得的运动信息,在静态目标图像中使用动态姿态和表情来驱动人脸,同时保留目标人物ID。然而,驱动视频中剧烈复杂的运动会导致模糊生成,因为静止的目标图像不能为被遮挡区域或细微的表情变化提供足够的外观信息,从而产生严重的伪影,显著降低了生成质量。方法:提出学习一个全局的人脸表征空间,并设计一个新的隐式身份表征条件记忆补偿网络,即MCNet,用于高保真的说话头生成。原创 2024-01-30 00:15:01 · 932 阅读 · 0 评论 -
【论文阅读】Vlogger: Make Your Dream A Vlog
Vlogger:把你的梦想变成Vlog原创 2024-01-28 20:18:08 · 814 阅读 · 0 评论 -
【论文复现】HyperLips: Hyper Control Lips with High Resolution Decoder for Talking Face Generation
具有高分辨率解码器的超控制嘴唇,用于说话人脸生成。原创 2024-01-28 18:41:53 · 857 阅读 · 0 评论 -
【论文阅读】DiffTalk: Crafting Diffusion Models forGeneralized Audio-Driven Portraits Animation
DiffTalk:制作通用音频驱动肖像动画的扩散模型。原创 2024-01-04 21:46:53 · 1304 阅读 · 0 评论 -
【论文阅读+复现】SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models
SparseCtrl:在文本到视频扩散模型中添加稀疏控制。(AnimateDiff V3,官方版AnimateDiff+ControlNet,效果很丝滑)原创 2023-12-27 21:16:22 · 3226 阅读 · 7 评论 -
【论文阅读】FreeU: Free Lunch in Diffusion U-Net
FreeU: 无需训练直接提升扩散模型生成效果。原创 2023-12-19 21:44:10 · 1530 阅读 · 1 评论 -
【论文阅读】Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation
动画化Anyone:用于角色动画的一致且可控的图像到视频合成。原创 2023-12-21 21:00:18 · 1508 阅读 · 1 评论 -
【论文阅读】MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA
Make-a-video:没有文本-视频数据的文本-视频生成。原创 2023-12-13 19:15:58 · 666 阅读 · 0 评论 -
【论文阅读】Video-to-Video Synthesis
基于条件GAN的视频到视频生成。原创 2023-12-11 17:41:39 · 324 阅读 · 0 评论 -
【论文阅读】VideoComposer: Compositional Video Synthesis with Motion Controllability
VideoComposer: 具有运动可控性的合成视频。原创 2023-11-17 21:27:36 · 870 阅读 · 0 评论 -
【论文阅读】Text2Video-Zero:Text-to-Image Diffusion Models are Zero-Shot Video Generators
文本到图像的扩散模型,零训练的视频生成器。原创 2023-11-16 22:55:20 · 464 阅读 · 0 评论 -
【论文阅读】A Survey on Video Diffusion Models
对AIGC时代视频扩散模型的全面回顾。介绍了扩散模型的基本原理和演变过程,视频生成、视频编辑和其他视频理解任务。原创 2023-11-16 19:19:40 · 1617 阅读 · 0 评论 -
【论文阅读】DALL·E: Zero-Shot Text-to-Image Generation
OpenAI第一代文本生成图片模型。原创 2023-11-09 21:45:17 · 2178 阅读 · 0 评论 -
【论文阅读】AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Modelswithout Specific Tuning
AnimateDiff: 个性化文本到图像扩散模型的动画化,无需特定调整。原创 2023-11-08 12:33:05 · 590 阅读 · 0 评论 -
【论文阅读】U-Net: Convolutional Networks for BiomedicalImage Segmentation
U-Net:生物医学图像分割的卷积网络。原创 2023-11-05 10:28:47 · 226 阅读 · 0 评论 -
【论文阅读】ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models
ControlNet: 为文本到图像扩散模型添加条件控制。原创 2023-11-04 20:42:35 · 499 阅读 · 0 评论 -
【论文阅读】ControlVideo: Training-free Controllable Text-to-Video Generation
ControlVideo: 可控的Training-free的文本生成视频。原创 2023-11-03 21:51:09 · 304 阅读 · 0 评论 -
【论文阅读】Learning Transferable Visual Models From Natural Language Supervision
CLIP,从自然语言监督中学习可转移的视觉模型。原创 2023-11-03 14:12:50 · 176 阅读 · 0 评论 -
【论文阅读】Learning to Estimate Hidden Motions with Global Motion Aggregation
GMA通过对图像自相似性进行建模,来更好地解决遮挡问题。GMA引一种基于transformer的方法,用于查找第一张图像中像素之间的远程依赖关系,并对相应的运动特征进行全局聚合。原创 2023-10-31 16:15:52 · 93 阅读 · 0 评论 -
【论文阅读】MaskFlownet: Asymmetric Feature Matching With Learnable Occlusion Mask
改进自PWC-net ,采用了非对称的、结合遮挡掩膜的匹配代价容量计算。做匹配代价容量计算时,应当排除那些在一帧中被遮挡的像素。同时,由于第二帧的特征经过了映射,破坏了匹配的对称性,因此,在匹配前,对映射后的第二帧的特征再插入若小运算量的可变卷积(deformable convolution),并加入一个前层网络预测的遮挡掩膜,再和第一帧的特征进行匹配。这个做法显著地提高了 PWC-net 的效果。模块可以很容易地集成到端到端网络架构中,计算量可忽略同时提升性能。原创 2023-10-31 16:04:34 · 97 阅读 · 0 评论 -
【论文阅读】Iterative Residual Refifinement for Joint Optical Flow and Occlusion Estimation
原来的一些比较好的方法,不论是FlowNet2还是PWCNet,网络所消耗的算力都不小。FlowNet2需要级联encoder-decoder结构以达到SOTA;而PWCNet使用了feature pyramid使得网络轻量,但在不同分辨率解码光流时都需要使用不同的Denset block,参数量也不少。而这篇文章提出IRR方法,使得模型参数量大大减少,主要原因在于IRR这种训练方法使得每一个model unit或是block uint的复用率大大增加。原创 2023-10-31 15:56:08 · 83 阅读 · 0 评论 -
【论文阅读】LiteFlowNet: A Lightweight Convolutional Neural Networkfor Optical Flow Estimation
由于孔径问题(aperture problem),不能直接测量光流。通常通过在粗到细框架中的能量最小化(energy minimization in a coarse-to-fine framework)来解决。涉及复杂的能量优化(energy optimization),计算量大。FlowNet、FlowNet2通过CNN进行光流估计。准确度接近最先进的能量最小化方法,而速度则快几个数量级。原创 2023-10-30 20:34:43 · 312 阅读 · 0 评论 -
【论文阅读】Particle Videos Revisited:Tracking Through Occlusions Using Point Trajectories
粒子视频回顾:使用点轨迹跟踪遮挡 CVPR2022视频中的像素追踪通常被研究为一个光流估计问题,其中每个像素都被描述为一个位移矢量,用来定位它在下一帧的位置。文章提出 Deep Particle Video(DPV),一种通过遮挡进行多帧点轨迹估计的方法。将成本量和迭代推理与多帧时间深度网络结合起来,共同推理多个时间段内,视觉实体的位置和外观。原创 2023-10-20 16:30:29 · 261 阅读 · 0 评论 -
【论文阅读】Context-TAP: Tracking Any Point Demands Spatial Context Features
Context-TAP:基于空间上下文特征的独立点跟踪。原创 2023-10-19 19:54:51 · 111 阅读 · 0 评论 -
【论文阅读】Tracking Everything Everywhere All at Once
传统的光流或者粒子视频跟踪方法都是用有限的时间窗口去解决的, 所以他们并不能很好的应对长时遮挡, 也不能保持估计的轨迹的全局连续性.该文提出提出了一个完整的, 全局的连续性的运动表示方:OmniMotion,使用 quasi-3D 规范体积来表征视频,通过局部空间和规范空间之间的双射(bijection)对每个像素进行追踪。这种表征能够保证全局一致性,即使在物体被遮挡的情况下也能进行运动追踪,并对相机和物体运动的任何组合进行建模。原创 2023-10-19 13:48:25 · 281 阅读 · 0 评论 -
【论文笔记】FlowNet: Learning Optical Flow with Convolutional Networks
以监督学习的方式构建了一个CNN用来解决光流估计问题。提出并比较了两种架构:一种是通用的架构,另一种则包含了一层不同图像位置特征向量关联层。当前的GT数据集的规模不够用来训练一个CNN,本文构建了一个大规模的合成数据集Flying Chairs dataset。证明了在这个合成的数据集上训练的网络,仍然可以在其他数据集比如Sintel和KITTI上得到很好的效果,以帧率5到10FPS实现了富有竞争力的准确率。原创 2023-10-17 12:30:36 · 132 阅读 · 0 评论