自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 收藏
  • 关注

原创 【工具】部署deepseek本地

根据自己电脑配置安装相应版本(命令行安装)查看目前安装了哪些版本,再使用。

2025-06-08 13:20:39 172

原创 [python] argparse怎么指定bool类型?

最近在写脚本的时候想要实现一个if 操作,通过用户输入。确定要不要启用某个语句。非常自然的就是使用python的argparse包,但是发现了一个陷阱,记录下。

2025-05-29 20:38:31 363

原创 【论文精读】2024 ECCV--MGLD-VSR现实世界视频超分辨率(RealWorld VSR)

现实世界中的低分辨率(LR)视频存在多样化和复杂的退化现象,这对视频超分辨率(VSR)算法在高质量地再现其高分辨率(HR)对应物时提出了巨大的挑战。最近,扩散模型在图像还原任务中展现出了令人信服的生成真实细节的性能。然而,扩散过程具有随机性,使得控制还原图像内容变得困难。当将扩散模型应用于视频超分辨率(VSR)任务时,这个问题变得更加严重,因为时间一致性对视频的感知质量至关重要。在本文中,我们通过利用预训练的潜在扩散模型的优势,提出了一种有效的实际应用视频超分辨率算法。

2025-05-29 20:14:56 1288

原创 【论文精读】2024 CVPR--Upscale-A-Video现实世界视频超分辨率(RealWorld VSR)

基于文本的扩散模型在生成和编辑方面表现出了显著的成功,显示出利用其生成先验增强视觉内容的巨大潜力。然而,由于对输出逼真度和时间一致性的高要求,将这些模型应用于视频超分辨率仍然具有挑战性,而这一点又因扩散模型固有的随机性而变得更加复杂。我们的研究引入了Upscale-A-Video,一种用于视频上采样的文本引导的潜在扩散方法。该框架通过两个关键机制确保时间一致性:局部上,它将时间层集成到U-Net和VAE-解码器中,保持短序列内的一致性;

2025-05-29 20:11:34 1115

原创 【论文精读】2024 arXiv --VEnhancer现实世界视频超分辨率(RealWorld VSR)

我们提出了VEnhancer,这是一种生成时空增强框架,通过在空间领域中添加更多细节以及在时间领域中合成详细的运动,从而改善现有的文本到视频的结果。针对生成的低质量视频,我们的方法可以通过统一的视频扩散模型同时提高其空间和时间分辨率,支持任意的上采样空间和时间尺度。此外,VEnhancer有效地去除了生成视频中的空间伪影和时间闪烁现象。为此,我们基于预训练的视频扩散模型,训练一个视频控制网络,并将其作为低帧率和低分辨率视频的条件注入到扩散模型中。

2025-05-27 19:48:28 1056

原创 【调试】【原理理解】ldm 和 diffusers 库的区别

ldm(通常指 latent-diffusion-models)文件夹和 pip install diffusers 安装的 diffusers 库在功能和应用场景上有一定关联,但也存在明显区别。

2025-05-27 19:40:12 306

原创 [原理理解] 基于diffusion的超分任务时候遇到的CLIPTokenizer和CLIPTextModel

将文本字符串转换为模型可以处理的 token ID 序列。:将 token ID 序列转换为高维度的向量表示,以便与图像表示进行比较。通过这两个组件,你可以处理文本输入并将其转换为适合 CLIP 模型处理的格式,从而实现多模态任务。

2025-05-23 20:33:05 361

原创 [原理理解] 超分使用到的RAM模型和LLAVA模型

RAM(Recognize Anything Model) 是用于图像识别和描述的模型,能从图像中识别多种对象、属性和场景,并生成对应的文本标签。它基于 Vision Transformer(ViT)架构,尤其代码里用的是 Swin Transformer 作为骨干网络,在大规模图像数据集上预训练,具备强大的图像特征提取和理解能力。RAM 模型用于文本提示提取,从图像里提取文本描述,为后续图像生成任务提供语义信息。

2025-05-23 20:26:59 392

原创 【论文精读】2023 CVPRW--EAVSR现实世界视频超分辨率(RealWorld VSR)

视频超分辨率(VSR)旨在从低分辨率(LR)视频重建高分辨率(HR)视频,近年来取得了巨大进展。然而,将现有的超分辨率视频重建方法应用于具有复杂退化的真实世界数据仍然具有挑战性。1、一方面,现有的与实际情况高度对齐的超分辨率视频重建(VSR)数据集较少,尤其是具有较大超分辨率缩放因子的,这限制了实际超分辨率视频重建任务的发展。2、另一方面,现有视频超分辨率方法中的对齐算法在处理真实世界的视频时表现不佳,导致结果不尽如人意。为了应对上述问题,

2025-05-23 20:21:42 1162

原创 【论文精读】2023 AAAI--FastRealVSR现实世界视频超分辨率(RealWorld VSR)

循环结构是视频超分辨率任务中一种普遍使用的框架,它通过隐状态对帧之间的时间依赖进行建模。当应用于具有未知和复杂退化的现实场景时,隐含状态往往包含不愉快的伪影,并将其传播到恢复的帧中。在这种情况下,我们的分析表明,当隐状态被更干净的对应物替代时,这些伪影可以大大减轻。基于这些观察,我们提出了一种隐状态注意力(HSA)模块,以减轻真实世界视频超分辨率中的伪影。具体而言,我们首先采用各种廉价滤波器来生成一个隐状态池(pool)。例如,高斯模糊滤波器用于平滑伪影,而锐化滤波器用于增强细节。

2025-05-23 20:09:08 982

原创 【论文精读】2022 CVPR--RealBasicVSR现实世界视频超分辨率(RealWorld VSR)

现实世界视频超分辨率 (VSR) 中退化的多样性和复杂性在推理和训练中存在重大挑战。首先,虽然长期传播可以在轻度退化的情况下提高性能,但严重的野外退化可以通过传播夸大,损害输出质量。为了平衡细节合成与伪影抑制,我们发现图像预清理阶段是不可或缺的,它可以减少在传播之前的噪声和伪影。配备经过精心设计的清理模块,我们的RealBasicVSR在质量和效率上均优于现有方法(见图1)。其次,实际应用中的超分辨率(VSR)模型通常使用多样化的退化进行训练,以提高其泛化能力,这需要增加批量大小以产生稳定的梯度。

2025-05-23 20:02:28 1443

原创 【论文阅读】人脸修复(face restoration ) 不同先验代表算法整理2

这些先验可以包括面部特征,也称为几何先验(Geometric Prior),有基于高清参考人脸的先验(Reference Prior) ,有基于强的生成器先验(Generative Prior),也有基于离散的codebook的先验(Vector Quantized Codebook Prior),当然,还有近几年爆火的diffusion,作为强的文生图基本模型,他可以作为一种扩散先验(Diffusion Prior)。然后由于结构发生一点改变,并没有使用预训练模型,而是端对端直接训练。

2025-05-17 22:42:47 1068 1

原创 【论文阅读】人脸修复(face restoration ) 不同先验代表算法整理

转眼做人脸复原(face restoration)算法也一段时间了,根据自己的记忆整理一下自己的一些看法,算作个人记录,当然如果有人愿意分享自己的看法也是极好的。先挂下文章链接,下一篇在写总结。

2025-05-17 21:46:37 1455 1

原创 【工具】解析URL获取实际图片地址下载原始FFHQ图像

最近的项目需要用到FFHQ的原始图像,但是官网上的70k张图像是已经对齐过的,想下载原始高清图像,怎么搞?

2025-05-06 20:44:22 438

原创 【bug】fused_bias_act_kernel.cu卡住没反应

在推理人脸修复face restoration算法 GPEN的时候,发现有时候fused_bias_act_kernel.cu卡住没反应。

2025-05-06 20:24:26 452

原创 【torch\huggingface默认下载路径修改】.cache/torch/ 或 .cache/huggingface

服务器的硬盘空间是有限的,系统上的固态硬盘空间又比较小,在跑深度学习模型的时候经常有默认下载权重的操作,不管是torch或者huggingface,如果不加管理,所有的权重都放在里面,迟早会爆,在大模型盛行的今天,huggingface每一次的权重都是几个g的大小,系统盘根本撑不住,所以肯定需要修改默认下载位置。

2025-04-25 20:23:08 424

原创 【论文精读】Copy or Not? Reference-Based Face Image Restoration with Fine Details

文章属于low level中的Reference-guided face restoration类别,被2025 WACV所接收,文章主要目的就是充分利用参考人脸的高清细节,将其复制到低质图像LQ中,实现真实且ID一致的人脸修复。以下是论文链接和代码链接[paper] [code更多关于face restoration方向的论文可以查看这个仓库[],覆盖从2018至今的SOTA论文。文章提出基于参考引导的人脸恢复比基于非参考的方法具有更好的身份保存能力,但是存在两个问题。

2025-04-06 22:35:12 1036

原创 【bug解决】NameError: name ‘fused_act_ext‘ is not defined

使用basicsr库做超分的时候发现这个问题,一直不断重复的使用和发现一直没有执行编译过程,导致一直推理失败。

2025-03-28 20:27:24 238

原创 【工具】huggingface 模型下载过程

记录下自己下载模型的几种方式。

2025-03-17 23:54:26 487

原创 【论文精读】FaceMe:第一个利用扩散先验且不需要微调的个性化人脸修复算法

人脸恢复算法存在三个约束,一致性(Consistency)、真实性(Realness)、ID一致性(Identity Consistency)。第一个利用扩散先验且改变人脸身份的时候不需要微调的个性化人脸修复算法

2025-03-17 23:46:55 896

原创 【bug解决】FaceDetection = face_alignment.FaceAlignment(face_alignment.LandmarksType._2D, device=device)

在使用face_alignment库的使用发现没有_2D这个属性,报错如下。

2025-03-15 23:10:58 247

原创 【论文精读】DifFace: Blind Face Restoration with Diffused Error Contraction

这篇文章是被 2024 TPAMI接收的关于人脸修复(`face restoration`)方向的论文,该论文设计中间转移过程,将低质量图像LQ转到中间态,然后利用预训练扩散模型的反向过程恢复到清晰的图像。

2025-03-15 23:03:23 1367

原创 【原理理解】图像SNR信噪比理解

从光学成像的方向入手,传感器(sensor)接收通过镜头的光信号,并将其转化为电信号,然后再经过量化,将模拟信号转化为数字信号,最终变成图像原始的RAW信号,RAW信号其实应该是用拜尔阵列得到的RGGB or BGGR,再经过去马赛克、白平衡等操作就变成我们熟悉的RGB图像。信噪比,顾名思义,就是信号和噪声的比较,网上有许多关于这方面的知识内容,给的公式并不一致,搞的我最近在分析电子放大噪声的时候有点迷茫,感觉大家都说的有道理,但是又不太相信,因为各说各话,也没有任何引用。

2025-03-10 20:13:24 644

原创 【bug解决】ERROR: Failed building wheel for mpi4py

建环境的时候安装mpi4py,可能会出现这个问题。特别如果是使用的时候。

2025-03-10 19:32:32 413

原创 [代码调试]安装Text2Image(stable diffusion)模型环境的踩坑记录

stable diffusion 环境配置

2025-02-18 11:36:28 711

原创 [论文阅读] SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

SeeSR提出高质量提示词,充分挖掘T2I模型潜力

2025-02-17 20:26:19 1014 1

原创 【代码实现】torch实现F.pixel_shuffle和F.pixel_unshuffle

pixel_shuffle 和 pixel_unshuffle 常用于神经网络减少特征图尺寸以减少计算量,,可以根据原理使用torch实现。

2024-09-30 18:27:41 684

原创 【代码实现】opencv 高斯模糊和pytorch 高斯模糊

Gaussian Blur,也叫高斯平滑,是在Adobe Photoshop、GIMP以及Paint.NET等图像处理软件中广泛使用的处理效果,通常用它来减少图像噪声以及降低细节层次。

2024-09-30 17:51:51 1583 1

原创 [原理理解] Swin Transformer相对位置编码理解

现在,我们想要获取非负数的位置索引,怎么做呢?首先我们需要先知道相对位置最小,最大值是多少?最大值就是当前像素是第一个像素的时候最后一个像素的位置;最小值就是当前像素是最后一个像素时候第一个像素的位置;因此,对负数进行偏移需要X、Y 各自加上。现在,我们已经获取到非负的xy相对位置索引,需要做最后一个步骤,把两个索引映射成单一的维度的索引。能想到的最简单方式就是x+y,但是这个方式是不行的。如下图所示,如果直接两者相加,那么针对同一个像素,其他像素跟他的相对位置索引就会重复。

2024-08-27 20:28:38 2005

原创 [论文精读] StyleGAN2 论文&代码理解 (下)

这是StyleGAN2理解的下篇,主要讲述的是代码的理解。代码主要需要分为3个大方面来理解(1)、Generator网络结构(2)、主网络训练。(3)、图像投影到隐码空间 (latent space)的训练

2024-08-04 15:54:21 1454 2

原创 [论文精读] StyleGAN2 论文&代码理解 (上)

精读这篇文章的原来还是来自于一些工作中的启发,人脸修复算法(face restoration)效果较好的基于可以分为3个流派,一种基于stylegan先验的GFPGAN、GPEN等,另外两种分别是基于transform和diffusion。而基于stylegan的方式通常都是采用 stylegan2。所以有必要熟悉一下stylegan2。

2024-08-04 11:50:07 2470

原创 [原理] 可变性卷积(deformable convolution)原理及代码解释

代码见:https://github.com/4uiiurz1/pytorch-deform-conv-v2/blob/master/deform_conv_v2.py论文:https://arxiv.org/abs/1703.06211。

2024-07-28 18:37:23 1124

原创 [工具]GitHub + PicGo 搭建免费博客图床

如果上传失败,可能是自己使用了梯子(你懂的,GitHub一般都要用,不然很慢),需要电脑找下端口和代理,填写相关信息。还是觉得个人博客记录最好还是不要money😥,所以还是想白嫖,找到了GitHub + PicGO的方式,记录一下。,和搭建博客一样,在用户界面填写下自己仓库和token信息,并设置为默认图床。类似,新建仓库存储图片 + 使用token管理仓库权限,用其他软件操作导入。新建仓库用来存储博客照片。下载安装picgo@

2024-07-28 14:42:41 301

原创 [工具] GitHub+Gridea+GitTalk 搭建个人免费博客

GitHub 可以用来创建 [用户名.github.io] 的个人主页,如果是学者,那这个主页应该是用来介绍自己的各种著作,自己的个人经历。这个分为开源和闭源的,开源的现在基本不更新了(毕竟人家要赚钱),但是感觉开源的也还行,可以用用看。想要搭建自己的博客网站,又不想花钱买域名,也不会前端技术,只能求助于简单(傻逼式)且免费的博客搭建方式。1、新建个人仓库,仓库名设置为[用户名.github.io] ,如下图所示,已经设置过了,所以显示重复。软件界面远程设置一下,按照下图设置自己的仓库就行。

2024-07-28 13:22:52 412

原创 【linux】自定义快捷命令/脚本

使用别名(alias)或自定义脚本来创建快捷指令。b. 在文件中添加别名定义。例如,创建一个名为mmagic的别名,将其映射到命令:c. 保存文件并退出编辑器。直接切换了b. 在脚本中编写您想要执行的命令或命令序列。" ls -lc. 保存文件并退出编辑器。直接运行myscript.sh可以执行脚本中定义的命令。

2024-05-30 17:41:02 1202

原创 【linux】chmod权限开放(整个文件夹)

前面第一个rwx 是针对所有者,也就是本人,拥有r(read读), w(write写),x(?chmod a+rwx 其实相当于 chmod 777。三个rwx分别属于user,group,others。第三个 r-x 是针对其他人,拥有执行和读的权限。想要共享conda环境给同事,发现同事没权限。由于同事是组内人,想给他写的权限,本来只要执行。第二个 r-x 是针对组,拥有执行和读的权限。就行,但是发现还是复制不了,发现这个是文件夹,要使用递归。,满足所有子文件都能读写操作。

2024-04-23 20:25:54 1847

原创 【python】 numpy 中常用随机数函数的使用和记忆(不易混淆)

在使用numpy生成随机数过程中,通常有多个函数,容易混乱使用,也不知道哪些要加括号,哪些不需要加括号。本文主要总结使用过程中常用随机数生成的一些函数。包括这些函数的使用。

2024-04-14 17:55:20 1767

原创 【python、opencv】opencv仿射变换原理及代码实现

仿射变换是opencv的基本知识点,主要目的是将原始图片经过仿射变换矩阵,平移、缩放、旋转成目标图像。原始图像3个点为src,变换后的3个点名为dst,从数字也能看出来,这个变换就是x,y缩小一半。borderMode (可选): 边界模式,用于处理超出边界的像素。其中x,y是原始图像坐标,u,v是变换后的图像坐标。borderValue (可选): 当使用常量填充时的边界值,默认为 0。dst (可选): 输出图像,可以是预先创建的空白图像。3点法,也叫方程法,通过不共线的3个点确定仿射变换矩阵。

2023-12-07 20:53:53 1096

原创 【ffmpeg】视频常用操作合集

从1.yuv文件中抽取640*360尺寸的图片,储存在out文件夹中,名字按照0001.png ,0002.png 递增。yuv数据必须指定尺寸,因为他是源数据,没有行列概念。将640*360的源yuv数据1.yuv转为1.MP4。文件夹及文件名: 例如:2-5/%04d.png。1920是开始的列,920是总的提取多少列。尺寸 : 例如 :640x360。视频源:例如: test.yuv。内容写上需要合并的视频名称。

2023-12-05 20:24:53 1029

原创 【python】pip install 国内源

python很多库都需要用国内镜像才能比较快,常用的有临时换源或长久换源。在用户主目录加上一个pip文件夹,里面增加一个pip.ini文件,例如。国内源常用的有以下几种。home下创建.pip。

2023-12-05 20:07:25 950

python+opencv 读取webcamera,并显示

python+opencv 读取网络摄像头、usbcamera等,并显示

2023-07-14

find-avaGPU.py

使用python,自动寻找服务器中显存最大的GPU进行pytorch推理,避免显存不够导致的推理失败。

2023-05-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除