尔呦-CSDN博客

原创强化学习学习笔记-李宏毅

refhttps://www.youtube.com/watch?v=OAKAZhFmYoI&ab_channel=Hung-yiLee

2024-05-22 18:04:37 263

原创 Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer

B×Bx∈RH×W×Cxb∈Rh×w×B2×CzijnijPiON2)ON。

2024-05-21 22:21:31 204

原创 TikTokActions: A TikTok-Derived Video Dataset for Human Action Recognition

人体行为识别数据集：283,582个视频片段，包含386个类别，从tiktok收集而来；现有的人体行为识别数据集：– UCF101：https://arxiv.org/pdf/1212.0402– HMDB-51：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6126543– Kinetics Human Action Video dataset：https://arxiv.org/pdf/1705.06950– Som

2024-05-20 10:04:00 122

原创 Dive into Deep Learning-优化算法(2)

fR→Rfxϵfxϵf′xOϵ2)η0ϵ−ηf′x)fx−ηf′x))fx−ηf′2xOη2f′2x))ηf′2x0ηfx−ηf′x))fx)x←x−ηf′x)fx)ηxx1x2⋯xdTfRd→R∇fx∂x1∂fx∂x2∂fx⋯∂xd∂fxTfxϵfxϵT∇。

2024-05-14 11:18:11 567

原创 Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Dec

CVPR2024问题引入本文introduction部分描述逻辑较为混乱，创新点不是很足，但是整体提炼一下分为两点，其一是改进IDM，使得过程更加efficient，也就是在latent space进行diffusion并且将隐式解码提到diffusion过程之后；其二是同时实现任意尺度超分任务和图像生成任务；其实本质上只有efficiency这一个创新点，原先IDM就是一个以LR+scale为条件的diffusion model，可以实现任意尺度的超分任务，图像生成就没有LR作为条件；所以

2024-05-11 10:57:25 150

原创 SwinIR: Image Restoration Using Swin Transformer

ILQ∈RH×W×Cin3×3HSF⋅)F0∈RH×W×CFDF∈RH×W×CFDFHDFF0)HDF⋅)KIRHQHRECF0FDF)IRHQHSwinIRILQILQL∣∣IRHQ−IHQ∣∣1H×W×CM2HW×M2×CM2H。

2024-05-10 14:58:44 794

原创 Local Texture Estimator for Implicit Representation Function

ILR∈RH×W×3→IHR∈RryH×rxW×3sxILR;Θ∑j∈Jwjfθzjx−xj)zEψILR)x−xjsxILR;Θψ∑j∈Jwjfθhψzjx−xj))ha⋅RC→R2Khf⋅RC→RK×2hp⋅R2→RKδx−。

2024-05-10 12:17:33 811

原创 Interpreting Super-Resolution Networks with Local Attribution Maps

I∈RdSRd→RAttrSRd→RdGradSI∂I∂SII⊙∂I∂SI(I−I′⋅∫01∂I∂SI′αI−I′))dαI′FRh×w→Rsh×sws(xy)l×lDxyRl×l→RDxyI∑i∈xxlj∈yyl∇ijII′I′wσ⊗IDFI))γα01。

2024-05-10 11:31:05 437

原创 GDAL的使用

【代码】GDAL的使用。

2024-05-09 17:21:34 249

原创 Meta-SR: A Magnification-Arbitrary Network for Super-Resolution

IHRILRFLRr(inCoutCkkinCoutC(ij)(i′j′Tij(⌊ri⌋⌊rj⌋)Wijψvij;θ)Wij(ij)vijri−⌊ri⌋rj−⌊rj⌋r1)θ(ij)(i′j′。

2024-05-09 12:27:46 708

原创 Dive into Deep Learning-优化算法(1)

也就是对应一个矩阵的乘方进行特征值分解，只需要将特征值进行同样的n次方即可，此时n需要时正数；，可以看到对矩阵的逆进行特征值分解，直接对特征值求逆即可；矩阵的行列式等于矩阵的特征值的乘积。iii. 延续上面的例子，特征向量组成的矩阵。矩阵的秩等于非0特征值的个数；是可逆的，所以等式两边同乘。i. 特征值和特征向量，对应的两个特征向量是。

2024-05-08 21:18:11 685

原创 Learning Continuous Image Representation with Local Implicit Image Function

Ii)Mi∈RH×W×Dfθsfθzx)szxxqIixqfθz∗xq−v∗)z∗v∗Iixq∑t∈00011011SSt⋅fθz∗xq−v∗)Mi→Mi)3×3MjkiConcat({Mjlkmilm∈−101)sfcellzxc])xhrsh。

2024-05-08 19:49:28 804

原创 Perception-Oriented Single Image Super-Resolution using Optimal Objective Estimation

TBCψx)xTByTBGθx∣TB)LrecLperlλi∈R7ABλ。

2024-05-07 13:23:09 678

原创 Implicit Diffusion Models for Continuous Super-Resolution

xiyi)spyit−1∣yitxi)y0yTf0f0suh。

2024-05-07 10:45:39 708

原创 Activating More Pixels in Image Super-Resolution Transformer

ILR∈RH×W×Cinconv×1shallowfeatureextractionF0∈RH×W×CresidualhybridattentiongroupsRHAG×nconv×1deepfeatureextractionFD∈RH×W×CF0。

2024-05-06 11:16:01 883

原创 Super Resolution in CVPR2023

标题链接Perception-Oriented Single Image Super-Resolution using Optimal Objective Estimationhttps://cvpr.thecvf.com/virtual/2023/poster/22477Super-Resolution Neural Operatorhttps://openaccess.thecvf.com/content/CVPR2023/papers/Wei_Super-Resoluti

2024-05-05 19:11:22 306

原创 Unsupervised Real-world Image Super Resolution via Domain-distance Aware Training

Yryiri1NXrxiri1MDSNSRNyigDSNxir){yigxiri1MxiryigLconExr∣∣yib−DSNxir∣∣1LperExr∣∣ϕyib−ϕDSNxir))yibxirϕLHHLHHLadvD−Eyrlo。

2024-04-23 17:15:52 527

原创 Unpaired Image Super-Resolution using Pseudo-Supervision

LR→cleanLRcleanLR→HRx∈Xy∈YXYFXYX→Yy↓∈Y↓FXYGXY↓UY↓YLR→cleanLRGXY↓GY↓XcleanLR→HRUY↓Yy↓∘GXY↓∘GY↓Xy↓)UY↓YGXY↓x)y↓∘。

2024-04-23 13:58:27 617

原创 To learn image super-resolution, use a GAN to learn how to do image degradation first

lαlpixelβlGANlGANEx∼Prmin0−1Dx))]Ex∼Pgmin0−1−Dx))]PrPglpixelWH1∑i1W∑j1HFIhrij−GθGIdij2。

2024-04-22 16:47:38 326

原创 Unsupervised Image Super-Resolution using Cycle-in-Cycle Generative Adversarial Networks

LR→cleanLRcleanLR→HRXxi∈XYyi∈YZzi∈ZyiziLR→cleanLRG1G2D1LGANLRN1∑iN∣∣D1G1xi))−1∣∣2xyG2LcycLRN1∑iN∣∣G2G1xi))−xi∣∣2Lidt。

2024-04-22 15:11:24 860

原创优化器汇总

https://zhuanlan.zhihu.com/p/55150256https://pytorch.org/docs/stable/optim.html#

2024-04-21 21:24:59 116

原创损失函数汇总

在多分类问题中，KL（Kullback-Leibler）损失通常用于衡量模型预测的概率分布与真实标签的概率分布之间的差异。在多分类任务中，通常使用交叉熵损失（Cross Entropy Loss）作为主要的损失函数，但KL损失可以作为附加的损失函数或正则化项来提供额外的信息，尤其在一些特定场景下。假设有一个多分类任务，模型预测的概率分布为Q，真实标签的概率分布为P。KLP∣∣Q∑Pi∗logQiPi其中，Pi和Qi。

2024-04-21 20:47:48 977

原创 Batch Normalization

【代码】Batch Normalization。

2024-04-21 17:41:41 589

原创 Boximator: Generating Rich and Controllable Motions for Video Synthesis

vvSelfAttnvvvTSSelfAttn([vhbox]))vvCrossAttnvhtext)tbMLPFourier([blocbidbflag]))

2024-04-21 16:45:09 678

原创 Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

同时支持object movement和camera movement。

2024-04-21 16:35:27 667

原创 Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling

分为两个阶段{f0→i∣i1...N}f0→i∈R2×H×Wp∈I2pi′pf0→ip)z∈R1N×Cl×hl×wlz0∈R1×Cl×hl×wlz1N∈RN×Cl×hl×wl{f0→i∣i1...N}zi′Wz0f0→i)zavgz0z1′z。

2024-04-21 11:44:46 851

原创 VideoComposer: Compositional Video Synthesis with Motion Controllability

tϵθztctϵθztc1twϵθztc2t−ϵθztc1t))c1c2c2−c1c2c1。

2024-04-21 11:08:21 692

原创 DRAGNUWA: FINE-GRAINED CONTROL IN VIDEOGENERATION BY INTEGRATING TEXT, IMAGE, ANDTRAJECTORY

control包含text，image和trajectory。

2024-04-21 10:53:09 733

原创 MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

提出一个模型同时考虑到object motion和camra motion，分别对应着OMCM module和CMCM module，因为缺少同时包含text\trajectory\camera pose的数据，所以本文使用的是一个multistep的训练策略。

2024-04-21 10:18:56 883

原创 Blind Image Super-Resolution: A Survey and Beyond

TPAMI2023问题定义。

2024-04-18 20:30:03 571

原创 sora related

sora可以生成变长的、不同分辨率的最长可到1分钟的视频；整体流程是videocompressionnerworkvideo→latentpatchifyspacetimepatchesdiffusiontransformerdecoderlatent→videovideocomp。

2024-04-18 15:35:34 1005

原创通用视觉大模型调研

humanbenchHumanBench: Towards General Human-centric Perception with Projector Assisted Pretraining；为了解决不同任务之间的conflict以及不同dataset之间的差异(相同任务)，提出PATH，backbone是所有任务共享、projector是任务级别共享的、head是dataset级别共享的，也就是普通多任务+task specific projector+dataset specific hea

2024-04-16 16:36:13 799

空空如也

空空如也