计算机视觉入门
文章平均质量分 77
多恩Stone
聚焦时尚设计领域的高可用 AIGC,现于香港理工-人工智能设计研究所搬砖
展开
-
【3DGS (1) 】3D Gaussian Splatting全解 (原理+代码+公式) - 笔记
Splatting 是一种主动的**体渲染**方法,从 3D 物体渲染到 2D 平面主动: 计算出每个发光粒子**如何影响像素点**Ray-casting 是被动的(NerF)计算出每个像素点受到发光粒子的影响来生成图像在这个3D高斯渲染的上下文中,发光粒子指的是3D空间中的点每个点都具有一定的属性(如颜色、不透明度等),可以影响最终渲染图像上的像素。这些"发光粒子"可以理解为**空间中的采样点在Splatting方法中,主动计算每个粒子如何影响2D平面上的像素。原创 2025-01-14 11:01:12 · 1691 阅读 · 0 评论 -
【Domain Generalization(2)】领域泛化在文生图领域的工作之——PromptStyler(ICCV23)
大规模预训练模型已观察到多种领域,其联合视觉语言空间中,文本特征可有效表示相关图像特征,且尽管存在模态差异,但存在跨模态迁移性现象,即可以使用文本特征训练分类器并使用图像特征进行推理,这为解决无源域数据的领域泛化问题提供了思路。原创 2024-12-31 18:06:55 · 932 阅读 · 0 评论 -
【Domain Generalization(1)】增量学习/在线学习/持续学习/迁移学习/多任务学习/元学习/领域适应/领域泛化概念理解
该系列是对 Domain Generalization 的学习记录,本文详细介绍了 DG 的相关概念和代表性工作。原创 2024-12-31 17:01:22 · 1157 阅读 · 0 评论 -
【扩散模型(九)】IP-Adapter 与 IP-Adapter Plus 的具体区别是什么?
从下图中可以很直观地看出有两处不同,第一是使用 image encoder 的方式不同、得到了不同的图像特征,第二是将原有的简单 ImageProjModel 替换成了更加复杂的 Resampler 以提取更多的图像信息。(2) .hidden_states[-2]:这行代码调用self.image_encoder时,通过 output_hidden_states=True 参数指示编码器输出除了。是一个简单的投影模型,可能用于将图像特征投影到一个多维空间以便于与其他类型的数据结合。原创 2024-08-27 22:08:23 · 1700 阅读 · 0 评论 -
【扩散模型(六)】IP-Adapter 是如何训练的?2 源码篇(IP-Adapter Plus)
在 IP-Adapter Plus 中,采用的是 Resampler 作为img embedding 到 ip_tokens 的映射网络,对图像(image prompt)中信息的抽取更加细粒度。从以下代码可以看出,IPAdapter 主要由 unet, image_proj_model, adapter_modules 3 个部分组成,而权重需要被优化的(训练到的)只有 ip_adapter..parameters(), 和 ip_adapter.,本文的重点是后续训练的实现。原创 2024-08-27 17:22:24 · 1519 阅读 · 0 评论 -
【已解决】ImportError: cannot import name ‘MultiControlNetModel‘ from ‘diffusers.pipelines.controlnet‘
IP-Adapter 环境配置中的小坑原创 2024-06-25 16:37:58 · 1173 阅读 · 0 评论 -
【How2Research(一)】深度学习方向的论文有 idea,如何工程实现?
该系列将收集整理各科研大佬的 Research 方法论。本文为知乎上高赞回答的总结梳理,并制作脑图如下,以便于理解消化。Step1: 选 baseline 论文1.1 有开源代码1.2 发表时间近2-3年1.3 论文公式清晰Step2: 深入 baseline 代码2.1 配置环境Step3: 搭建自己的 pipeline。原创 2024-06-25 11:00:52 · 1088 阅读 · 0 评论 -
【可控图像生成系列论文(三)】北大 Context-Aware Unsupervised Text Stylization论文解读1
本篇将介绍来自 ACM MM 2018 的一篇字体风格化的可控生成工作《Context-Aware Unsupervised Text Stylization》,主要功能是无监督的文字风格化,输入为(a)。原创 2024-06-24 21:23:50 · 1087 阅读 · 0 评论 -
【diffusers 极速入门(二)】如何得到扩散去噪的中间结果?Pipeline callbacks 管道回调函数
动态无分类器引导(classifier-free guidance,CFG)允许在一定步数后禁用 CFG,从而节省计算成本。该回调函数在每一步结束时执行,并修改管道属性和变量,以供下一步使用。这在动态调整某些管道属性或修改张量变量时非常有用。通过访问并转换潜在空间,可以在每步生成后显示图像。以下函数将 SDXL 的潜在空间(4 通道)转换为 RGB 张量(3 通道)。,如果你有其他执行点的回调需求,可以在 github 上提出功能请求。在管道的去噪循环中,可以使用。要设置回调函数,可以指定。原创 2024-06-19 20:24:04 · 1279 阅读 · 0 评论 -
【diffusers 极速入门(一)】pipeline 实际调用的是什么? __call__ 方法!
_call__通过这篇文章,我们了解了diffusers库中的管道对象是如何通过实现__call__方法来处理图像生成任务的。我们还通过简单的案例代码,展示了如何创建和使用一个自定义的管道对象。希望这篇文章能够帮助你更好地理解diffusers库的工作原理,并激发你在图像生成领域的探索和创作。如果你对diffusers感兴趣,不妨试着实现自己的管道对象,体验其中的乐趣吧!原创 2024-06-19 19:53:10 · 708 阅读 · 0 评论 -
为什么直接用 cv2.imwrite 保存 PIL 的图片会导致奇怪的颜色?
PIL 是一个处理图像的强大库,主要用于图像的打开、操作和保存。在 PIL 中,常用的图像对象是PIL.Image对象。OpenCV 是一个用于计算机视觉和图像处理的开源库,提供了丰富的功能。OpenCV 处理图像时使用numpy数组作为图像数据结构。PIL 和 OpenCV 处理图像的通道顺序不同PIL 使用 RGB 顺序。OpenCV 使用 BGR 顺序。颜色差异的原因直接使用相同的numpy数组保存图像时,由于通道顺序不同,颜色会有差异。解决方案。原创 2024-06-18 20:24:38 · 793 阅读 · 0 评论 -
【SVG 生成系列论文(十)】分层的矢量路径生成 Text-to-Vector Generation with Neural Path Representation
开发了一种两阶段文本驱动的神经路径优化方法,以指导创建具有有效和逐层SVG路径的矢量图形。本文介绍了一种新颖的神经路径表示方法,旨在通过文本到矢量(Text to vector, T2V)生成技术,使矢量图形的创建更加便捷...原创 2024-06-03 11:15:33 · 392 阅读 · 0 评论 -
【Epoch,Batch,Iteration】深度学习模型训练相关基础概念光速理解!
光速理解 epoch, batch 和 iteration原创 2024-05-30 21:58:15 · 315 阅读 · 0 评论 -
【SVG 生成系列论文(八)】如何生成 svg logo?IconShop: 通过自回归 Transformer 实现文本引导的矢量 Icon 生成
论文名:IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers (Siggraph Asia 2023)文章提出的模型输入为文本,模型输出为单色的、相对简单的矢量图 icon。介绍了 SVG 表示与 Token 化、掩码方案,本篇则介绍模型架构和具体的训练技巧。原创 2024-05-21 16:42:37 · 1030 阅读 · 0 评论 -
【SVG 生成系列论文(七)】如何生成 svg logo?IconShop: 通过自回归 Transformer 实现文本引导的矢量 Icon 生成
本文将进一步介绍技术细节:SVG 表示与 Token 化,以及掩码方案。论文名:IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers (Siggraph Asia 2023)文章提出的模型输入为文本,模型输出为单色的、相对简单的矢量图 icon。原创 2024-05-21 15:18:09 · 948 阅读 · 0 评论 -
【SVG 生成系列论文(六)】如何生成 svg logo?IconShop: 通过自回归 Transformer 实现文本引导的矢量 Icon 生成
在本文中,我们将继续介绍一种非优化方法(直接生成 SVG 代码)的技术路线,这项工作名为 IconShop。IconShop 是在 StarVector 之前的同类研究,为这一技术路线的发展奠定了基础。本篇简要介绍背景和应用,后续文章将进一步介绍技术细节与相关代码。原创 2024-05-21 10:43:58 · 914 阅读 · 0 评论 -
【SVG 生成系列论文(一)】用 LLM 来生成 SVG 代码,StarVector: Generating Scalable Vector Graphics Code from Images
背景:可伸缩矢量图形(Scalable Vector Graphics,SVG)已经成为现代图像渲染应用程序中不可或缺的一部分,因为它们具有。方法:StarVector 是一种多模态SVG生成模型,它有效地集成了代码生成大型语言模型(CodeLLMs)和视觉模型。从以下对比中可以看出,StarVector 和 GPT-4 V 有类似的 SVG 生成功能。存在的问题:现有的使用深度学习进行SVG建模的方法通常难以生成复杂的SVG,并且仅限于需要。任务: 输入一张位图,输出一张位图对应的 SVG 矢量图。原创 2024-05-08 22:05:27 · 1162 阅读 · 0 评论 -
【已解决】To enable repo look-ups and downloads online, pass ‘local_files_only=False‘ as input.
根据 config.yaml 中的提示“# Set this variable to True the first time it runs”,在 config.yaml 配置文件中将 diffuser 的 download 参数设置为例 True 后解决该问题。原创 2024-04-23 19:16:11 · 1727 阅读 · 0 评论 -
【 AIGC 研究最新方向(下)】面向平面、视觉、时尚设计的高可用 AIGC 研究方向总结
目前面向平面、视觉、时尚等设计领域的高可用 AIGC 方向有以下 4 种:1. 透明图层生成,2. 可控生成,3. 图像定制化,4. SVG 生成原创 2024-04-21 23:36:02 · 1178 阅读 · 0 评论 -
2.4微分(动手深度学习v2)
学习目标:动手深度学习V2(进度:7/73)学习内容:小结微分和积分是微积分的两个分支,其中前者可以应用于深度学习中无处不在的优化问题。导数可以被解释为函数相对于其变量的瞬时变化率。它也是函数曲线的切线的斜率。梯度是一个向量,其分量是多变量函数相对于其所有变量的偏导数。链式法则使我们能够微分复合函数。学习时间:周一至周五晚上 7 点—晚上9点学习产出:本文练习题1. 绘制函数 f(x)=x3−1xf ( x ) = x ^ { 3 } - \frac { 1 } { x }f(原创 2021-09-12 10:06:16 · 344 阅读 · 0 评论 -
2.3线性代数(动手深度学习v2)
学习目标:动手深度学习V2(进度:6/73)学习内容:标量、向量、矩阵和张量是线性代数中的基本数学对象。向量泛化自标量,矩阵泛化自向量。标量、向量、矩阵和张量分别具有零、一、二和任意数量的轴。一个张量可以通过sum和mean沿指定的轴降低维度。两个矩阵的按元素乘法被称为他们的哈达玛积。它与矩阵乘法不同。在深度学习中,我们经常使用范数,如 L1 范数、 L2 范数和弗罗贝尼乌斯范数。我们可以对标量、向量、矩阵和张量执行各种操作。学习时间:2021.9.4( 10:40-11:20am原创 2021-09-04 11:09:59 · 546 阅读 · 0 评论 -
2.2数据预处理(动手深度学习v2)
课程主页:https://courses.d2l.ai/zh-v2/教材:https://zh-v2.d2l.ai/练习1. 删除缺失值最多的列。2. 将预处理后的数据集转换为张量格式。数据预处理????sec_pandas到目前为止,我们已经介绍了处理存储在张量中数据的各种技术。为了能用深度学习来解决现实世界的问题,我们经常从预处理原始数据开始,而不是从那些准备好的张量格式数据开始。在Python中常用的数据分析工具中,通常使用pandas软件包。像庞大的Python生态系统中的许多其他扩展原创 2021-09-02 10:48:48 · 912 阅读 · 0 评论 -
Baidu AI Studio李宏毅课程-生成对抗网络>项目1 基于openCV的人脸检测
任务描述使用OpenCV中的CascadeClassifier进行人脸检测,下载预训练权重,权重文件格式为xml。在安装opencv的时候在其目录下data文件夹内,存放着权重描述文件。下方是一个检测的例子,阅读代码并尝试修改,上传任务图像,完成检测。输入图片:识别后结果:图片来源google搜索“毕业照”,若侵删。代码如下import cv2import sysimport os.pathdef detect(filename, cascade_file = "/opt/cond原创 2021-03-29 15:14:36 · 450 阅读 · 2 评论
分享