- 博客(139)
- 收藏
- 关注
原创 flow model
GpGzGxGz)xpGx)pdatax){x1x2⋯xm∈pdatax)G∗argmaxG∑i1mlogpGxi)xiGxfzzz1z2xx1x2]Jf∂x1∂z1∂x2∂z1∂x1∂z2∂x2∂z2]zf−1x)Jf−1。
2024-09-10 20:45:58 725
原创 SimSwap: An Efficient Framework For High Fidelity Face Swapping
EncDecSDecTEnc−DecsEnc−DecTFeaTISvSvsvrvsDim。
2024-08-26 14:57:51 667
原创 InstantID: Zero-shot Identity-Preserving Generation in Seconds
https://arxiv.org/pdf/2401.07519#page=9.73https://github.com/instantX-research/InstantID?tab=readme-ov-filehttps://github.com/instantX-research/InstantID/pull/89/files问题引入目标是生成和reference图片相符合的图片,特别是人脸;现在基于微调模型的方法例如dreambooth,text inversion,lora等需
2024-08-26 11:33:21 184
原创 Adversarial Diffusion Distillation
θϕψxsαsx0σsϵxθxss)Tstudentτ1⋯τn}N4τn1000sxθx0FDϕkFkkxθxθtxψxθtt)sgd。
2024-08-24 14:32:08 670
原创 Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models
CVPR2024 SHI Labshttps://arxiv.org/pdf/2305.16223https://github.com/SHI-Labs/Prompt-Free-Diffusion问题引入在SD模型的基础之上,去掉text prompt,使用reference image作为生成图片语义的指导,optional structure image作为生成图片structure的指导来进行生成;使用SeeCoder来提取参考图片的embedding作为生成条件,且SeeCode
2024-07-04 10:58:30 377
原创 Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models
FMGfimgi{concatmfjconcatgi−1fji1ij132≤i≤12ij13yF′M′{concatmm′fjzerofj′))concatgi−1fjzerofj′))i1ij132≤i≤12ij13HFDNrZrclnormZr。
2024-07-04 10:16:59 783
原创 PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
ON2→OR2N2。
2024-07-03 22:16:38 272
原创 PIXART-α: FAST TRAINING OF DIFFUSION TRANS- FORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE SYNTHESIS
Siβ1iβ2iγ1iγ2iα1iα2i]SSigSEi)Ei)Ei)Si。
2024-07-03 21:48:34 504
原创 T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Mode
512×51264×64FcFc1Fc2Fc3Fc4}Fci。
2024-07-03 21:04:17 527
原创 Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization
xyx′∈Rh∗w×cy′∈Rh∗w×cPACAQKVSoftmaxdQKT⋅VQtoQx′KtoKy′VtoVy′。
2024-07-01 20:58:10 894
原创 DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior
深圳先进研究院&上海ai lab&港中文https://github.com/XPixelGroup/DiffBIRhttps://arxiv.org/pdf/2308.15070问题引入使用一个统一的框架来处理image restoration任务,包含图片超分BSR,图片去噪BID和人脸restoration BFR,分为两个阶段,第一个阶段是degradation removal来去掉与图片无关的退化信息,第二个阶段是generation module for los
2024-07-01 19:58:20 315
原创 SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution
xyyxfxrepfxlogitsfyrepfylogitsLDAPELrfyreffxrepλLlfylogitsfxlogits)LrLl。
2024-07-01 17:04:38 1014
原创 IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
N×dZ′AttentionQKVSoftmaxdQKTVQZWqKctWkVctWvZZ′ctZ′′AttentionQK′V′SoftmaxdQK′TV′QZWqK′ciWk′V′ciWv′WqWk′Wv′WkWvZnewZ。
2024-06-20 18:01:58 967
原创 Hierarchical Integration Diffusion Model for Realistic Image Deblurring
z∈RN×C′Xr∈RHW×CQzKVSoftMaxQKTC⋅V。
2024-06-19 20:08:23 752
原创 DiffIR: Efficient Diffusion Model for Image Restoration
ZCPENS1PixelUnshuffleConcatIGTILQ)))Z∈R4C′F′Wl1Z⊙NormFWl2ZWlFF′QWdQWcQF′KWdKWcKF′VWdVWcVF′WdWcQ∈RHW×CK∈RC×HWV∈RHW×CFWcV。
2024-06-19 19:23:52 933
原创 Humans in 4D: Reconstructing and Tracking Humans with Transformers
θ∈R24×3×3β∈R10M∈R3×NN6890X∈R3×kXMWW∈RN×kθb∈R23×3×3θg∈R3×3πRt)R∈R3×3t∈R3XxIθβπ。
2024-06-07 14:42:56 730
原创 Scalable Diffusion Models with Transformers
I∈RH×W×3z∈R8H×8W×4T×ddTpγβγβαα。
2024-06-05 17:48:58 838
原创 Human Guided Ground-truth Generation for Realistic Image Super-resolution
IHIPosINeg)IHILLR−PosLR−NegL1。
2024-06-05 13:29:00 491
原创 【TODO】CutMIB: Boosting Light Field Super-Resolution via Multi-View Image Blending
USTC cvpr2023https://github.com/zeyuxiao1997/CutMIB问题引入针对光场超分的数据增强策略;在同一个位置的每一个视图中剪切低分辨率块,然后将所有LR补丁混合生成混合补丁,最后将混合补丁粘贴到高分辨率光场视图的相应区域;之前还有一个工作CutBlur,类似但是没有多视角;methods【TODO】针对光场特点,暂不深入了解;
2024-05-31 11:16:23 137
原创 【TODO】Zero-Shot Dual-Lens Super-Resolution
USTC CVPR23https://github.com/XrKang/ZeDuSR问题引入现在的移动设备通常配备广角和长焦两个相机,在此基础上进行超分,不同的图片仍然有不同的退化过程,即使是同一个设备,所以本文提出了一个方法,可以仅凭test时的双镜头数据对来学习image specific SR model;广角和长焦镜头在重叠的视场角内自然的存储了低分和高分的对应图像,可以用来学习超分模型,同时可以通过长焦图片可以作为参考来对广角视图进行超分;实现面临的两个主要的困难及本文对应解
2024-05-31 11:01:13 191
原创 【TODO】OSRT: Omnidirectional Image Super-Resolution with Distortion-aware Transformer
深先研&Tencent&东京大学&上海ai lab CVPR2023https://github.com/Fanghua-Yu/OSRT问题引入面向monidirectional image super-resolution问题,之前的方法通过在等距柱状投影图像equirectangular projection (ERP)上进行超分来解决这个问题,采用bicubic下采样来生成数据对,忽略了ERP在退化过程中的几何特性,导致难以泛化到真实的ERP图像;本文专门设计
2024-05-31 10:29:53 233
原创 Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance
FtAttentionQtKtVtsoftmaxdQtKtTMVtMMij0ifijelse−∞。
2024-05-28 19:48:52 497
原创 Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation
x1∈Rt×h×w×cx2∈Rh×w×cx2tx1w。
2024-05-28 17:43:56 856
原创 DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion
x0{p1⋯pN}{x1′⋯xN′}cIAcCLIPcVAE)Acppi−2pi−1pipi1pi2}ϵθztcicpϵθzt∅∅sIϵθztcI∅−ϵθzt∅∅))spϵθztcIcp−ϵθzt。
2024-05-28 17:05:10 1104
原创 Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos
Ep。
2024-05-28 16:05:28 862
原创 DISCO: Disentangled Control for Realistic Human Dance Generation
fgpptpp1p2⋯pT}ItVI1I2⋯IT}fgpctext∈Rl×dcf∈Rhw×d。
2024-05-28 15:28:08 613
原创 MagicPose: Realistic Human Poses and Facial Expressions Retargeting with Identity-aware Diffusion
IR{PF}PFsoftmaxdQ⋅KT⋅VsoftmaxdQ1⋅K1⊕K2T⋅V1⊕V2)K2V2⊕。
2024-05-28 14:38:48 788
原创 Learning A Single Network for Scale-Arbitrary Super-Resolution
ICCV2021问题引入现在的超分模型大多专门为固定整数scale的超分任务设计,本文提出一个可插拔模块,来利用一个模型来实现任意尺度的超分模型,包含non-integer(e.g., from 100 × 100 to 220 × 220) and asymmetric SR(100 × 100 to 220 × 420);实现方法是增加一个模块,模块有多个scale aware feature adaption block和scale aware upsampling layer组成,同
2024-05-27 15:08:37 249
原创 Actor-critic学习笔记-李宏毅
∇RθN1∑n1N∑t1Tn∑t′tTnγt′−trt′n−b∇logpθatn∣stn)Gtn∑t′tTnγt′−trt′nVπs)Qπsa)Gtn∑t′tTnγt′−trt′nEGtnQπθstnatn)Vπθ。
2024-05-26 10:42:29 274
原创 Q-Learning学习笔记-李宏毅
refhttps://www.youtube.com/watch?v=tnPVcec22cg&list=PLJV_el3uVTsODxQFgzMzPLa16h6B8kWM_&index=5&ab_channel=Hung-yiLee
2024-05-24 11:44:21 976
原创 MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model
Irefp1Np1⋯pN]NNyayp1K。
2024-05-23 17:05:28 911
原创 Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance
θ∈R24×3×3β∈R10M∈R3×NN6890W∈RN×kIrefI1NHrefH1NHtransiSMPLβrefθmi)iiFi⋅θi)y∑i1NFi⋅θi。
2024-05-23 16:12:29 963
原创 强化学习学习笔记-李宏毅
refhttps://www.youtube.com/watch?v=OAKAZhFmYoI&ab_channel=Hung-yiLee
2024-05-22 18:04:37 721
原创 Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer
B×Bx∈RH×W×Cxb∈Rh×w×B2×CzijnijPiON2)ON。
2024-05-21 22:21:31 385
原创 TikTokActions: A TikTok-Derived Video Dataset for Human Action Recognition
人体行为识别数据集:283,582个视频片段,包含386个类别,从tiktok收集而来;现有的人体行为识别数据集:– UCF101:https://arxiv.org/pdf/1212.0402– HMDB-51:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6126543– Kinetics Human Action Video dataset:https://arxiv.org/pdf/1705.06950– Som
2024-05-20 10:04:00 178
原创 Dive into Deep Learning-优化算法(2)
fR→Rfxϵfxϵf′xOϵ2)η0ϵ−ηf′x)fx−ηf′x))fx−ηf′2xOη2f′2x))ηf′2x0ηfx−ηf′x))fx)x←x−ηf′x)fx)ηxx1x2⋯xdTfRd→R∇fx∂x1∂fx∂x2∂fx⋯∂xd∂fxTfxϵfxϵT∇。
2024-05-14 11:18:11 617
原创 Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Dec
CVPR2024问题引入本文introduction部分描述逻辑较为混乱,创新点不是很足,但是整体提炼一下分为两点,其一是改进IDM,使得过程更加efficient,也就是在latent space进行diffusion并且将隐式解码提到diffusion过程之后;其二是同时实现任意尺度超分任务和图像生成任务;其实本质上只有efficiency这一个创新点,原先IDM就是一个以LR+scale为条件的diffusion model,可以实现任意尺度的超分任务,图像生成就没有LR作为条件;所以
2024-05-11 10:57:25 380
原创 SwinIR: Image Restoration Using Swin Transformer
ILQ∈RH×W×Cin3×3HSF⋅)F0∈RH×W×CFDF∈RH×W×CFDFHDFF0)HDF⋅)KIRHQHRECF0FDF)IRHQHSwinIRILQILQL∣∣IRHQ−IHQ∣∣1H×W×CM2HW×M2×CM2H。
2024-05-10 14:58:44 865
原创 Local Texture Estimator for Implicit Representation Function
ILR∈RH×W×3→IHR∈RryH×rxW×3sxILR;Θ∑j∈Jwjfθzjx−xj)zEψILR)x−xjsxILR;Θψ∑j∈Jwjfθhψzjx−xj))ha⋅RC→R2Khf⋅RC→RK×2hp⋅R2→RKδx−。
2024-05-10 12:17:33 882
原创 Interpreting Super-Resolution Networks with Local Attribution Maps
I∈RdSRd→RAttrSRd→RdGradSI∂I∂SII⊙∂I∂SI(I−I′⋅∫01∂I∂SI′αI−I′))dαI′FRh×w→Rsh×sws(xy)l×lDxyRl×l→RDxyI∑i∈xxlj∈yyl∇ijII′I′wσ⊗IDFI))γα01。
2024-05-10 11:31:05 546
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人