自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(129)
  • 收藏
  • 关注

原创 开源+轻量的文生图模型——z-image

text-to-image (T2I)generation图像生成领域中表现最好的是商业闭源proprietary方案,如Nano Banana Pro 和Seedream 4.0,在开源方案中,如Qwen-Image, Hunyuan-Image-3.0 ,FLUX.2,参数也要20B~80B,而z-image只需要6B参数,显存VRAM也只需要16GB。效果可以达到照片级生成和双语渲染photorealistic generation and bilingual text rendering。

2026-06-10 00:00:00 311

原创 如何在CV中使用transformer

首先看一下谷歌的开篇论文这篇论文是计算机视觉领域具有的开山之作,由谷歌研究团队(Google Research, Brain Team)在2020年提出,并在2021年的 ICLR 会议上发表。它首次成功地将自然语言处理(NLP)领域大火的架构,直接应用到了图像识别任务中,打破了卷积神经网络(CNN)在视觉领域的长期统治地位。CNN和注意力在。

2026-05-31 00:00:00 452

原创 图像分割——常用数据和算法

video instance segmentation (VIS),把实例分割出来video semantic segmentation (VSS),只关心类别,不关心实例video panoptic segmentation (VPS),实例和类别都关心在传统的计算机视觉任务中,通常会有一个固定的标签集合,即封闭词汇(Closed然而,现实世界中的物体和场景是多样的,难以用一个固定的标签集合来描述。为了应对这一挑战,研究者们提出了开放词汇(Open Vocabulary)的概念。

2026-05-20 00:00:00 435

原创 raw域噪声到底怎么建模

此外,还引入了对抗损失,但是对抗损失在噪声很多的场景下会失效。如果是在原始raw上做的斜率标定,10bit的话,原始raw的范围最大值是1024,那么在对0~1浮点数加噪声时,对应的slope要除以1024,bias对应的是信号无关的方差,信号无关=K*N1+N2,所以bias要除以(1024*1024)。所以可以直接假设QE=0.5,来估计得到K,这样加噪声获得的图像虽然K不准确,但是仍然和clena raw的亮度是一致的,所以这样训练的网络不会学习到亮度改变,并且K的不准确可以看作是一种数据增广。

2026-04-10 00:00:00 404

原创 生而为手机平台的网络——Mobilenet系列

即使用。

2026-03-08 00:00:00 512

原创 看ultralytic对cv基础任务的坚守——YOLOv5

使用的单位是MiB,而不是MB,所以移位20位。

2026-02-07 00:00:00 1133

原创 不用干净数据也能学会降噪——N2N派

一般来说,数据对的质量很大程度上决定了模型的效果。但干净的数据获得总是很困难的,所以有一些聪明人想出来了一些不需要干净数据的奇思妙想。这里就简单学习一下。Learning image restoration without clean data.ICML 2018,来自英伟达实验室NVlabs生活中的测量,最常用的就是多次测量求平均值。

2025-12-31 00:00:00 801

原创 comfyUI实战——使用openArt的工作流

想要由一张照片生成简笔画,要不是使用醒图之类的工具手动描边,也试了豆包等ai去处理,但是结果还是不如人意。小红书发现有好心人bole分享了他搭建的。可以认为模块是一些python脚本,可以使用Manager安装,模型是别人训练好的模型,一般在huggingface网站可以找到。在运行工作流时,有问题的位置会以红色框显示,也可以在左边菜单栏点击终端看代码到底是哪里报错的。

2025-09-16 00:00:00 2554

原创 comfUI背后的技术——VAE

第一次知道VAE可能还是许嵩。当然,这里的VAE指的是变分自编码器(Variational Autoencoder, VAE)

2025-08-31 00:00:00 1101

原创 comfyUI背后的一些技术——CLIP

CLIP 全称 Contrastive Language-Image Pre-Training(对比性语言-图像预训练模型),是 OpenAI 在 2021 年初开源的一个用文本作为监督信号来做预训练的模型。

2025-08-25 00:00:00 1484

原创 comfyUI背后的一些技术——Checkpoints

这种格式的文件只保存模型的权重,而不包含优化器状态或其他信息,这也就意味着它通常用于模型的最终版本,当我们只关心模型的性能,而不需要了解训练过程中的详细信息时,这种格式便是一个很好的选择。二是模型的体积较大,一般真人版的单个模型的大小在7GB左右,动漫版的在2-5GB之间。这是因为 .ckpt 为了让我们能够从之前训练的状态恢复训练,好比从50%这个点位重新开始训练,从而保存了比较多的训练信息,比如模型的权重、优化器的状态还有一些Python代码。对应的是yTorch保存模型参数的格式.pt。

2025-08-22 00:00:00 1692

原创 ComfyUI——舒服地让大模型为我所用

大模型除了dreamshaper,还有Stable diffusion v1.4,Stable diffusion v1.5,Realistic Vision,majicMIX realistic,Deliberate v2,F222等。上半身特写,一位女孩,单人,Q版(或“迷你角色”/“简笔画风格可爱小人”,根据“chibi”具体语境调整),长发,面带笑容,开怀大笑,抱着泰迪熊,注视着观众,舞姿站立,可爱,柔和色调,背景有花朵,繁花似锦,置身花丛,最佳画质,高分辨率,细节精致。但是更改环境变量也没解决;

2025-08-10 00:00:00 1386

原创 工作第一步建立连接——ssh

而服务端,也需有一个称为 SSH 守护程序的组件,它不断地侦听特定的 TCP/IP 端口以获取可能的客户端连接请求。本地向远程服务端发起连接 服务端随机生成一个字符串发送给发起登录的本地端 本地对该字符串使用私钥(~/.ssh/id_rsa)加密发送给服务端 服务端使用公钥(~/.ssh/id_rsa.pub)对私钥加密后的字符串进行解密 服务端对比解密后的字符串和第一次发送给客户端未加密的字符串,若一致则判断为登录成功。转发的对象是端口号,这样本地就可以使用服务器的服务,或者服务器使用本地的一些服务。

2025-07-17 00:00:00 1931

原创 raw图像去噪数据集

CVPR2017https://arxiv.org/abs/1707.01313Darmstadt Noise Dataset – Darmstadt Noise DatasetVCIP2017Low-ISO High-ISORENOIR - A Dataset for Real Low-Light Image Noise Reductionhttps://arxiv.org/abs/1409.8230Renoir DatasetVCIP2018sCVPR2018坏点矫正、异常剔除、强度校准、局部对齐等之后

2025-07-10 11:25:30 1269

原创 去紫边算法中的一些疑问

其实它的出现很复杂,包括镜头本身的色散,demosic算法,sensor本身的像元密度等有关。其中一种解释是横向色差是全局的,轴向色差相当于RB通道没有聚焦,所以导致有重影带来了紫边。就是人工构建规则排布的有局部高对比度的图,提前计算原点周围的RB分量偏移,实际拍摄时根据和原点的位置关系把真实的色偏系数插值出来。与blooming同理,如果镜头和sensor没有匹配好,导致光线以倾斜的角度进入sensor,也会导致溢出。depurple是在CAC基础上的二次校正,是直接基于图像内容的。2 降饱和度(变灰)

2025-07-01 10:00:00 1360

原创 HDRnet——双边滤波和仿射变换的摇身一变

layer层数越多,下采样得到的图越小,low-level features的好处是最后的grid会更coarser,最后的特征图的感受野也越多,非线性更好,表达力更强。所以最终grid是5维的[B,in*out,n,H,W],permute之后是[B,H,W,n,in*out],B是batchsize,n表示对guide的量化级数,in*out表示每个cell的变换系数。这部分的处理对象是低分辨率图,利用CNN进行特征提取(局部和全局),最后fuse得到grid,这里面包含了变换的系数。

2025-04-26 00:00:00 1512

原创 LK光流和特征点的关系

光流有1.,即图像相同位置的灰度短时不变。两帧中对应像素灰度/亮度相同2.这意味着时间的变化不会引起像素位置的剧烈变化,这样像素的灰度值才能对位置求对应的偏导数。将图像I看作是有三个自变量(坐标和时间)的函数:,那么对它泰勒展开:舍去constant,认为(x,y)位置的点在t经过偏移后和初始值相同(,偏移之后灰度值不变):这样得到左右同除以,得到当逼近0,由极限定理可以得:这样方程就可以使用其中也是梯度,只不过是时间坐标方向上的。因为假设2的存在可以使用两帧的差分来表示。

2025-03-31 00:00:00 1252

原创 Denoising Diffusion Probabilistic Models

这篇文章就是所谓的DDPM前向扩散过程之和前一步有关,是一阶马尔可夫链,是图像和标准高斯噪声I的加权,认为方差全部来自I,并且多步可以通过连乘合并为一步:反向的过程也是类似的形式:并且由贝叶斯公式,并且贝叶斯中三个概率都是高斯分布,可以得到:首先明确扩散时的一步转移公式。表现形式为信号以某一系数进行衰减,同时加一个高斯噪声(高斯噪声为加性信号无关的高斯噪声)。因为本质就是信号与高斯噪声的alpha blending,所以就需要考虑权重的选择。特别的是前一个状态的信号 和噪声的权重之和不是1,而是他们两个平

2025-03-09 00:00:00 1447

原创 x-restormer——restormer+SSA

和NAFnet一样,这篇文章也是在对比了当前的几种SOTA算法之后,以restormer为基准,博采众长,得到了新的结构,力求对各种任务有较好的鲁棒性。

2025-02-15 23:45:00 1495

原创 结合源码看Restormer的网络设计

restormer集合了众多的技术,包括unet结构,1x1卷积和深度卷积,还有nlp中常用的layer norm,attention结构。

2025-02-05 11:01:42 1034

原创 没有激活层也可以work的work——NAFnet

应用:GoPro (for image deblurring),SIDD (for image denoising)期刊: ECCV 2022这是旷视在ECCV2022提出来的论文——。基于对比总结已有的一些SOTA模型,侧重于模型结构的精简。使用SIDD和GoPro数据集衡量去噪和去模糊能力。

2025-01-25 01:00:00 2529

原创 锐化增强算法——拉普拉斯锐化

灰度的差异带来了边缘,而拉普拉斯算子的响应在灰度高的位置是负数。为了增强对比度,我们要让灰度低的区域更低,灰度高的地方更高。注意梯度作为一阶导先升高后下降,拉普拉斯算子作为梯度的散度,先是流出大于流入,所以是从左到右是先正后负。首先,锐化其实只能算增强中的一部分,因为图像增强还包括对比度增强,色彩增强,去噪等。而锐化特指的是突出图像的边缘轮廓。既然要突出边缘,一般的做法就是要先检测边缘。所以根据边缘检测的方法,这里主要介绍拉普拉斯锐化和USM。注意,模板中心位置为负数,其余是正数。

2024-11-29 01:00:00 1052

原创 锐化增强算法——USM

USM 锐化(Unsharp Mask Sharpening)是 Adobe Photoshop中使用的锐化方法,它的原理和拉普拉斯锐化相似,都是原图叠加一个残差信息,只不过USM使用的残差不依赖于二阶导。

2024-10-23 16:15:00 3381

原创 论文阅读——Restormer

和MIRnet一样,都来自于阿联酋的Inception Institute of Artificial Intelligence。这篇文章聚焦于解决Transformer应用在vision中的痛点。Vision Transformers(ViT)把图像分成多个patch,学习他们之间的关系。所以相比于CNN,Vision Transformers的优点是更大的感受野,可以对图像内容有自适应的能力。

2024-10-22 01:00:00 1191 1

原创 而今再看unet

从最开始听到人用Unet左inpainting,再到自己使用Unet做图像去噪任务,虽然没有用Unet做过分割,但Unet也可以称得上是老朋友了。现在回头再看Unet,温故知新,一些魔鬼真就藏在一些细节之中。

2024-10-16 04:30:00 643

原创 深入理解GAN网络

创造性地提出了对抗训练来代替人工指定的loss。之前的初步理解了一下,感觉还是不到位,在这里再稍微深入一点。

2024-09-05 19:05:40 1620

原创 工作中常用的100个知识点

22. 计算直方图,hist = cv2.calcHist([img],[0],None,[16],[0,255]),注意第一个参数必需是[]括起来,因为第二个参数是第一个参数的索引,当直接传入img作为第一个通道时,直方图计算的是第一行的统计。否则后面一层的分布要依赖于前面所学习的参数。在某些场景中是有用的,如网络传输的数据源,摄像头捕获的图像数据。这里的异常情况是,左黑右白的图减去blur之后的diff是左负右正,直接加diff的话会导致灰度饱和,所以就把diff大于0的地方的权重降低,把黑色更黑?

2024-08-28 16:12:11 1615

原创 卷积的意义及其派生(二)

接。因为还有很多种卷积的变形,并且应用广泛,所以继续介绍。

2024-07-31 07:00:00 842

原创 卷积的意义及其派生(一)

one by one 卷积最早出现在NIN文章中,GoogleNet中的Inception得到了使用,作用主要是降维/升维。和普通卷积核的区别就是滤波器大小是1x1,这样每个像素的卷积结果就与其邻域无关,即没有考虑局部信息之间的关系。既然在空域上相当于对图像整体乘一个因子,那么它是怎么起作用的呢。对图像灰度值的缩放确实没什么收益,收益发生在图像是多通道时。当图像为多通道时,feature ...

2024-07-26 06:30:00 1484 1

原创 按下快门前的算法——对焦

对焦算法可以分为测距式,相位式,反差式。其中测距式是通过激光,(TOF,Time of Flight)等主动式地得知物距,然后对焦。更常用的是后两者。反差式如上图所示,可以看到镜头明显有“拉风箱”一般的往复推拉,遍历得到一个对比度最好的结果。这种对焦方法相对精准,但耗时较长。CDAF具体使用的是爬山算法。爬山算法包含两个过程,第一阶段叫粗扫(Coarse Search),第二阶段叫细扫(Fine Search)。算法控制马达移动镜头朝一个方向移动时,图像对比度会出现逐渐增大然后变小的过程,类似爬山。

2024-07-12 00:45:00 2704

原创 安卓交叉编译——ndk

通过ndk,安卓也可以使用java之外的native code,如c,c++,甚至c和c++对应的library也可以得以复用,这就大大减少了重复开发。2、 打开bash_profile文件,添加NDK=/cygdrive// 我的是:NDK=/cygdrive/d/android-ndk-r9b export NDK,并保存。makefile的作用之一就是指定编译结果,编译生成(exe,so,a,jar,apk),得到一个文件夹,里面有adb.exe,fastboot.exe.

2024-06-15 11:42:26 1310 1

原创 论文阅读——MIRNet

背景如下:1. 图像复原领域被CNN统治2.CNN使用全分辨率,或者是渐进的低分辨率full-resolution or on progressively low-resolutionrepresentations。前者是单一尺度的,而后者一般是编码器-解码器结构。3.空域信息spatial details和上下文语义信息不可兼得从四个方面解决:1.多尺度特征提取,但是是并行进行的。2.多尺度间的信息交换3.非局部attention4.基于attention的多尺度信息集成。

2024-06-10 00:00:00 1232 1

原创 定点化和模型量化(二)——量化的种类

一个问题是原有的激活函数是为分布在0~1的数据设计的,以sigmoid为例,浮点的时候要无限接近于1它才等于1,但量化数据很容易就大于1了,但从整个分布看这个值其实还处于比较低的水平。文章假设了BN-->relu这样的顺序结构,因此BN层得到的高斯分布,只有正半轴的部分保留了下来,此时不能直接使用BN的均值作为 E[x]。正如前面提到的,MobileNetV2的后量化会面临70.9% to 0.1%的准确度下降,但这篇文章不需要per channel量化,也不需要训练就可以得到接近原始精度的量化效果。

2024-05-31 00:00:00 1788

原创 定点化和模型量化(三)——SNPE和AIMET工具

The Snapdragon Neural Processing Engine (SNPE)是高通骁龙为了加速网络模型设计的框架。但它不只支持高通,SNPE还支持多种硬件平台,ARM平台、Intel平台等。支持的深度学习框架也有包括Caffe、TensorFlow和ONNX等。SNPE可以前向运行模型,但需要先将模型转换为Deep Learning Container (DLC) file才可以加载进SNPE中。

2024-05-29 16:30:44 2149 1

原创 颜色的表示和还原(二)

不过,目前NTSC 是一个已经过时的电视色彩标准,如今保存下来的意义几乎就仅是作为各色彩标准之间的对比。由普朗克定律Plank's law,某个波长的能量谱密度可以由给定温度下的黑盒辐射“blackbody radiators”来表示,剩余的都是光速,普朗克常量等常量。但麻烦的是不同设备的分量不一致,这样同一个信号在不同设备下的颜色就会不一样。sRGB是一个线性空间,但人眼对亮度的感受不是线性的,而是更接近指数函数的形式。在sRGB中提到,不同色温的sRGB空间是不同的,所以不同色温下的CCM也是不同的。

2024-05-21 01:00:00 2041

原创 定点化与模型量化(一)

事实上,模型量化一开始就是为了压缩模型参数,韩松ICLR2016使用K-Means聚类,以类中心代替属于该类的所有样本,低bit只需要对类中心表示,从而可以使得保留更多的空间来表示更多的其他数据。既然本质上是定点化,那么模型量化的好处和定点类似,都是损失精度的代价下,有更快的速度,更小的内存,更小的功耗。以常见32bit浮点型到8bit为例,模型大小直接变成了原来的1/4,更重要的是因为使用了整型,可以使用SIMD指令集,而SIMD在移动端的优化已经非常充分了,速度可以加快2~4倍。

2024-05-17 15:40:25 2335

原创 颜色的表示和还原(一)

最真实的颜色表示应该是波长。ICCV 2019 Tutorial: Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision相机经常被简单地看作是衡量光线的设备light-measuring device,而图像被看作是辐射量化后的结果。这一假设在HDR,图像匹配,shape from shading等领域都被认为成立。但实际上相机尤其是数码相机对进入相机的光线做了很多处理,都是为了生成更符合人

2024-05-16 01:00:00 1247 1

原创 成像到sensor前发生了什么——坐标和畸变

https://www.visuallocalization.net/datasets/可以看到aachen数据集,其中一项是内参> The intrinsic calibration is defined by the width `w` and height `h` of the image, its focal length`f`, the position of the principal point (`cx` and `cy`), and a radial distortion p.

2024-05-14 19:48:15 1334 1

原创 深度学习中的变形金刚——transformer

很荣幸能和这些大牛共处一个时代。网络结构名字可以是一个卡通形象——变形金刚,论文名字可以来源于一首歌——披头士乐队的歌曲《All You Need Is Love》。transformer在NeurIPS2017诞生,用于英语-德语,英语-法语的翻译,在BLEU(bilingual evaluation understudy)指标上得到了很好的表现。由自然语言生成代码也是一种翻译,文生图也是一种转换,事实上chatgpt,bert都是基于tranformer的。

2024-04-30 23:00:00 1273 1

原创 误差的一阶和二阶——MSE/MAE

3.从梯度更新上看,MSE中的预测值是sigmoid后的输出,那么求导时就会出现sigmoid的导数,而sigmoid的导数在两侧很小,会导致梯度下降不了。MSE衡量的是预测值与真实值之间的关系,那么关于预测值的似然函数可以写成关于GT的函数,如果这个函数是高斯分布,根据最大似然估计就可以得到MSE。而且,MSE 随着误差的减小,梯度也在减小,即使固定学习因子,函数也能较快取得最小值。所以超分,去噪更多使用L1,SSIM等,尤其后面又有GAN loss等的出现,MSE使用得更少了。

2024-04-24 01:00:00 2715

使用comfui工作流进行图像抠图

使用comfui工作流进行图像抠图

2025-10-14

comfyUI实战-使用openArt的工作流

comfyUI实战-使用openArt的工作流

2025-09-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除