自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(139)
  • 收藏
  • 关注

原创 flow model

GpG​zGxGz)xpG​x)pdata​x){x1x2⋯xm∈pdata​x)G∗argmaxG​∑i1m​logpG​xi)xiGxfzzz1​z2​​xx1​x2​​]Jf​∂x1​∂z1​∂x2​∂z1​​∂x1​∂z2​∂x2​∂z2​​]zf−1x)Jf−1。

2024-09-10 20:45:58 725

原创 SimSwap: An Efficient Framework For High Fidelity Face Swapping

EncDecS​DecT​Enc−Decs​Enc−DecT​FeaT​IS​vS​vs​vr​vs​Di​m。

2024-08-26 14:57:51 667

原创 InstantID: Zero-shot Identity-Preserving Generation in Seconds

https://arxiv.org/pdf/2401.07519#page=9.73https://github.com/instantX-research/InstantID?tab=readme-ov-filehttps://github.com/instantX-research/InstantID/pull/89/files问题引入目标是生成和reference图片相符合的图片,特别是人脸;现在基于微调模型的方法例如dreambooth,text inversion,lora等需

2024-08-26 11:33:21 184

原创 Adversarial Diffusion Distillation

θϕψxs​αs​x0​σs​ϵxθ​​xs​s)Tstudent​τ1​⋯τn​}N4τn​1000sxθ​​x0​FDϕk​Fk​kxθ​​xθt​xψ​xθt​t)sgd。

2024-08-24 14:32:08 670

原创 Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

CVPR2024 SHI Labshttps://arxiv.org/pdf/2305.16223https://github.com/SHI-Labs/Prompt-Free-Diffusion问题引入在SD模型的基础之上,去掉text prompt,使用reference image作为生成图片语义的指导,optional structure image作为生成图片structure的指导来进行生成;使用SeeCoder来提取参考图片的embedding作为生成条件,且SeeCode

2024-07-04 10:58:30 377

原创 Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models

FMGfi​mgi​{concatmfj​concatgi−1​fj​​i1ij132≤i≤12ij13​yF′M′{concatmm′fj​zerofj′​))concatgi−1​fj​zerofj′​))​i1ij132≤i≤12ij13​HFDNr​Zr​cl​normZr。

2024-07-04 10:16:59 783

原创 PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

ON2→OR2N2​。

2024-07-03 22:16:38 272

原创 PIXART-α: FAST TRAINING OF DIFFUSION TRANS- FORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE SYNTHESIS

Siβ1i​β2i​γ1i​γ2i​α1​iα2i​]SSigSEi)Ei)Ei)Si。

2024-07-03 21:48:34 504

原创 T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Mode

512×51264×64Fc​Fc1​Fc2​Fc3​Fc4​}Fci​。

2024-07-03 21:04:17 527

原创 Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

xyx′∈Rh∗w×cy′∈Rh∗w×cPACAQKVSoftmaxd​QKT​⋅VQtoQx′KtoKy′VtoVy′。

2024-07-01 20:58:10 894

原创 DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior

深圳先进研究院&上海ai lab&港中文https://github.com/XPixelGroup/DiffBIRhttps://arxiv.org/pdf/2308.15070问题引入使用一个统一的框架来处理image restoration任务,包含图片超分BSR,图片去噪BID和人脸restoration BFR,分为两个阶段,第一个阶段是degradation removal来去掉与图片无关的退化信息,第二个阶段是generation module for los

2024-07-01 19:58:20 315

原创 SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

xyyxfxrep​fxlogits​fyrep​fylogits​LDAPE​Lr​fyref​fxrep​λLl​fylogits​fxlogits​)Lr​Ll​。

2024-07-01 17:04:38 1014

原创 IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

N×dZ′AttentionQKVSoftmaxd​QKT​VQZWq​Kct​Wk​Vct​Wv​ZZ′ct​Z′′AttentionQK′V′Softmaxd​QK′T​V′QZWq​K′ci​Wk′​V′ci​Wv′​Wq​Wk′​Wv′​Wk​Wv​ZnewZ。

2024-06-20 18:01:58 967

原创 Hierarchical Integration Diffusion Model for Realistic Image Deblurring

z∈RN×C′Xr​∈RHW×CQzKVSoftMaxQKTC​⋅V。

2024-06-19 20:08:23 752

原创 DiffIR: Efficient Diffusion Model for Image Restoration

ZCPENS1​PixelUnshuffleConcatIGT​ILQ​)))Z∈R4C′F′Wl1​Z⊙NormFWl2​ZWl​FF′QWdQ​WcQ​F′KWdK​WcK​F′VWdV​WcV​F′Wd​Wc​Q​∈RHW×CK∈RC×HWV∈RHW×CFWc​V。

2024-06-19 19:23:52 933

原创 Humans in 4D: Reconstructing and Tracking Humans with Transformers

θ∈R24×3×3β∈R10M∈R3×NN6890X∈R3×kXMWW∈RN×kθb​∈R23×3×3θg​∈R3×3πRt)R∈R3×3t∈R3XxIθβπ。

2024-06-07 14:42:56 730

原创 Scalable Diffusion Models with Transformers

I∈RH×W×3z∈R8H​×8W​×4T×ddTpγβγβαα。

2024-06-05 17:48:58 838

原创 Human Guided Ground-truth Generation for Realistic Image Super-resolution

IHIPosINeg)IHILLR−PosLR−NegL1​。

2024-06-05 13:29:00 491

原创 【TODO】CutMIB: Boosting Light Field Super-Resolution via Multi-View Image Blending

USTC cvpr2023https://github.com/zeyuxiao1997/CutMIB问题引入针对光场超分的数据增强策略;在同一个位置的每一个视图中剪切低分辨率块,然后将所有LR补丁混合生成混合补丁,最后将混合补丁粘贴到高分辨率光场视图的相应区域;之前还有一个工作CutBlur,类似但是没有多视角;methods【TODO】针对光场特点,暂不深入了解;

2024-05-31 11:16:23 137

原创 【TODO】Zero-Shot Dual-Lens Super-Resolution

USTC CVPR23https://github.com/XrKang/ZeDuSR问题引入现在的移动设备通常配备广角和长焦两个相机,在此基础上进行超分,不同的图片仍然有不同的退化过程,即使是同一个设备,所以本文提出了一个方法,可以仅凭test时的双镜头数据对来学习image specific SR model;广角和长焦镜头在重叠的视场角内自然的存储了低分和高分的对应图像,可以用来学习超分模型,同时可以通过长焦图片可以作为参考来对广角视图进行超分;实现面临的两个主要的困难及本文对应解

2024-05-31 11:01:13 191

原创 【TODO】OSRT: Omnidirectional Image Super-Resolution with Distortion-aware Transformer

深先研&Tencent&东京大学&上海ai lab CVPR2023https://github.com/Fanghua-Yu/OSRT问题引入面向monidirectional image super-resolution问题,之前的方法通过在等距柱状投影图像equirectangular projection (ERP)上进行超分来解决这个问题,采用bicubic下采样来生成数据对,忽略了ERP在退化过程中的几何特性,导致难以泛化到真实的ERP图像;本文专门设计

2024-05-31 10:29:53 233

原创 Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance

Ft​AttentionQt​Kt​Vt​softmaxd​Qt​KtT​​MVt​MMij​0ifijelse−∞。

2024-05-28 19:48:52 497

原创 Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

x1​∈Rt×h×w×cx2​∈Rh×w×cx2​tx1​w。

2024-05-28 17:43:56 856

原创 DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

x0​{p1​⋯pN​}{x1′​⋯xN′​}cI​AcCLIP​cVAE​)Acp​pi−2​pi−1​pi​pi1​pi2​}ϵθ​zt​ci​cp​ϵθ​zt​∅∅sI​ϵθ​zt​cI​∅−ϵθ​zt​∅∅))sp​ϵθ​zt​cI​cp​−ϵθ​zt​。

2024-05-28 17:05:10 1104

原创 Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos

Ep​。

2024-05-28 16:05:28 862

原创 DISCO: Disentangled Control for Realistic Human Dance Generation

fgppt​pp1​p2​⋯pT​}It​VI1​I2​⋯IT​}fgpctext​∈Rl×dcf​∈Rhw×d。

2024-05-28 15:28:08 613

原创 MagicPose: Realistic Human Poses and Facial Expressions Retargeting with Identity-aware Diffusion

IR​{PF}PFsoftmaxd​Q⋅KT​⋅Vsoftmaxd​Q1​⋅K1​⊕K2​T​⋅V1​⊕V2​)K2​V2​⊕。

2024-05-28 14:38:48 788

原创 Learning A Single Network for Scale-Arbitrary Super-Resolution

ICCV2021问题引入现在的超分模型大多专门为固定整数scale的超分任务设计,本文提出一个可插拔模块,来利用一个模型来实现任意尺度的超分模型,包含non-integer(e.g., from 100 × 100 to 220 × 220) and asymmetric SR(100 × 100 to 220 × 420);实现方法是增加一个模块,模块有多个scale aware feature adaption block和scale aware upsampling layer组成,同

2024-05-27 15:08:37 249

原创 Actor-critic学习笔记-李宏毅

∇Rθ​N1​∑n1N​∑t1Tn​​∑t′tTn​​γt′−trt′n​−b∇logpθ​atn​∣stn​)Gtn​∑t′tTn​​γt′−trt′n​Vπs)Qπsa)Gtn​∑t′tTn​​γt′−trt′n​EGtn​Qπθ​stn​atn​)Vπθ​。

2024-05-26 10:42:29 274

原创 Q-Learning学习笔记-李宏毅

refhttps://www.youtube.com/watch?v=tnPVcec22cg&list=PLJV_el3uVTsODxQFgzMzPLa16h6B8kWM_&index=5&ab_channel=Hung-yiLee

2024-05-24 11:44:21 976

原创 MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

Iref​p1Np1​⋯pN​]NNya​yp1K​。

2024-05-23 17:05:28 911

原创 Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance

θ∈R24×3×3β∈R10M∈R3×NN6890W∈RN×kIref​I1NHref​H1NHtransi​SMPLβref​θmi​)iiFi⋅θi)y∑i1N​Fi⋅θi。

2024-05-23 16:12:29 963

原创 强化学习学习笔记-李宏毅

refhttps://www.youtube.com/watch?v=OAKAZhFmYoI&ab_channel=Hung-yiLee

2024-05-22 18:04:37 721

原创 Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer

B×Bx∈RH×W×Cxb​∈Rh×w×B2×Czijn​ijPi​ON2)ON。

2024-05-21 22:21:31 385

原创 TikTokActions: A TikTok-Derived Video Dataset for Human Action Recognition

人体行为识别数据集:283,582个视频片段,包含386个类别,从tiktok收集而来;现有的人体行为识别数据集:– UCF101:https://arxiv.org/pdf/1212.0402– HMDB-51:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6126543– Kinetics Human Action Video dataset:https://arxiv.org/pdf/1705.06950– Som

2024-05-20 10:04:00 178

原创 Dive into Deep Learning-优化算法(2)

fR→Rfxϵfxϵf′xOϵ2)η0ϵ−ηf′x)fx−ηf′x))fx−ηf′2xOη2f′2x))ηf′2x0ηfx−ηf′x))fx)x←x−ηf′x)fx)ηxx1​x2​⋯xd​TfRd→R∇fx∂x1​∂fx​∂x2​∂fx​⋯∂xd​∂fx​TfxϵfxϵT∇。

2024-05-14 11:18:11 617

原创 Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Dec

CVPR2024问题引入本文introduction部分描述逻辑较为混乱,创新点不是很足,但是整体提炼一下分为两点,其一是改进IDM,使得过程更加efficient,也就是在latent space进行diffusion并且将隐式解码提到diffusion过程之后;其二是同时实现任意尺度超分任务和图像生成任务;其实本质上只有efficiency这一个创新点,原先IDM就是一个以LR+scale为条件的diffusion model,可以实现任意尺度的超分任务,图像生成就没有LR作为条件;所以

2024-05-11 10:57:25 380

原创 SwinIR: Image Restoration Using Swin Transformer

ILQ​∈RH×W×Cin​3×3HSF​⋅)F0​∈RH×W×CFDF​∈RH×W×CFDF​HDF​F0​)HDF​⋅)KIRHQ​HREC​F0​FDF​)IRHQ​HSwinIR​ILQ​ILQ​L∣∣IRHQ​−IHQ​∣∣1​H×W×CM2HW​×M2×CM2H。

2024-05-10 14:58:44 865

原创 Local Texture Estimator for Implicit Representation Function

ILR∈RH×W×3→IHR∈Rry​H×rx​W×3sxILR;Θ∑j∈J​wj​fθ​zj​x−xj​)zEψ​ILR)x−xj​sxILR;Θψ∑j∈J​wj​fθ​hψ​zj​x−xj​))ha​⋅RC→R2Khf​⋅RC→RK×2hp​⋅R2→RKδx−。

2024-05-10 12:17:33 882

原创 Interpreting Super-Resolution Networks with Local Attribution Maps

I∈RdSRd→RAttrS​Rd→RdGradS​I∂I∂SI​I⊙∂I∂SI​(I−I′⋅∫01​∂I∂SI′αI−I′))​dαI′FRh×w→Rsh×sws(xy)l×lDxy​Rl×l→RDxy​I∑i∈xxlj∈yyl​∇ij​II′I′wσ⊗IDFI))γα01。

2024-05-10 11:31:05 546

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除