学习笔记
文章平均质量分 51
计算机视觉
研三小学渣
这个作者很懒,什么都没留下…
展开
-
ControlNet总结
原创 2024-01-08 16:43:19 · 371 阅读 · 1 评论 -
CLIP Text Encoder
原创 2024-01-08 16:41:20 · 477 阅读 · 1 评论 -
Stable Diffusion XL总结
在Stable Diffusion XL推理阶段,输入一个prompt,通过VAE和U-Net(Base)模型生成Latent特征,接着给这个Latent特征加一定的噪音,在此基础上,再使用Refiner模型进行去噪,以提升图像的整体质量与局部细节。与此同时,VAE的缩放系数也产生了变化。其主要思想是在加载数据时,将左上角的裁剪坐标通过傅里叶编码并嵌入U-Net(Base)模型中,并与原始图像尺寸一起作为额外的条件嵌入U-Net模型,从而在训练过程中让模型学习到对“图像裁剪”的认识。原创 2024-01-08 16:39:00 · 1905 阅读 · 1 评论 -
Stable Diffusion模型对比
Stable Diffusion V1系列是用基于GPT的CLIP模型,其模型参数量为123.65M; Stable Diffusion V2系列则换成了更新更好的OpenCLIP模型,其参数量为354.03M,相比SD V1的Text Encoder模型大了3倍左右 Stable Diffusion v1:它使用了LAION-2B (en)数据集以及laion-high-resolution和laion-improved-aesthetics的子集进行训练。laion-improved-aesthet原创 2024-01-08 16:37:08 · 1224 阅读 · 1 评论 -
DDPM总结
原创 2024-01-08 16:34:35 · 324 阅读 · 1 评论 -
ATSS总结
1.对于每个输出的检测层,先计算每个anchor的中心点和目标的中心点的L2距离,选取K(mmdetection的topK是9)个anchor中心点离目标中心点最近的anchor为候选正样本(candidate positive samples)通过回归矩形框的2个角点偏置进行预测框位置和大小的预测,而FCOS是基于中心点预测四条边和中心点的距离进行预测框位置和大小的预测。铺设的点,左右两边类似表格上的数值表示最终确定的正负样本,通过计算候选框与gt的左,右,上,下,距离,找出。在特征图上每个点铺设多个。原创 2024-01-08 15:03:37 · 376 阅读 · 1 评论 -
MAE技术总结
MAE 方法很简单:mask 输入图像的随机 patch,并重建缺失的像素。它基于两个核心设计。首先,作者开发了一种非对称编码器-解码器结构,其中的编码器仅对可见的 patch 子集(不带 mask token)进行操作,而轻量级解码器则从潜在表示和 mask token 重建原始图像。其次,作者发现对输入图像的高比例(例如 75%)进行 mask 会产生一项困难且有意义的自监督任务。将这两种设计结合起来,能够高效地训练大型模型:加快训练速度(3 倍或更多)并提高精度。原创 2024-01-08 14:59:47 · 471 阅读 · 1 评论 -
生成网络总结
生成网络总结。原创 2024-01-08 14:50:16 · 1481 阅读 · 1 评论