李加号pluuuus
码龄4年
关注
提问 私信
  • 博客:105,969
    问答:244
    视频:2
    106,215
    总访问量
  • 107
    原创
  • 16,583
    排名
  • 678
    粉丝

个人简介:你好呀

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 毕业院校: 中国科学院大学
  • 加入CSDN时间: 2021-05-06
博客简介:

weixin_57974242的博客

查看详细资料
  • 原力等级
    领奖
    当前等级
    5
    当前总分
    1,135
    当月
    32
个人成就
  • 获得839次点赞
  • 内容获得58次评论
  • 获得1,004次收藏
  • 代码片获得697次分享
创作历程
  • 49篇
    2024年
  • 61篇
    2023年
  • 1篇
    2022年
  • 1篇
    2021年
成就勋章
TA的专栏
  • 论文阅读
    33篇
  • 目标追踪
    2篇
  • 复现
    4篇
  • debug
    3篇
  • 生成
    1篇
  • ssh连接
    2篇
  • 扩散模型
    5篇
  • talking face
    7篇
  • 代码学习
    6篇
  • 论文复现
    7篇
  • CV基础
    5篇
  • 资源
    1篇
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

176人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【论文阅读+复现】Encoder-based Domain Tuning for Fast Personalization ofText-to-Image Models

基于编码器的域调整,实现文本到图像模型的快速个性化。
原创
发布博客 2024.11.07 ·
767 阅读 ·
25 点赞 ·
0 评论 ·
25 收藏

【论文阅读+复现】HyperDreamBooth: HyperNetworks for FastPersonalization of Text-to-Image Models

个性化生成需要在不同背景和风格下综合个体,同时保持身份保真度。个性化过程对时间和内存有要求HyperDreamBooth能够从单个人图像高效生成个性化权重的超网络。在大约 20 秒内实现了面部个性化,比 DreamBooth 快 25 倍,比textural inversion快 125 倍,仅使用一张参考图像,并且具有与 DreamBooth 相同的质量和风格多样性。且生成的模型比普通 DreamBooth 模型小 10000 倍。
原创
发布博客 2024.11.06 ·
540 阅读 ·
24 点赞 ·
1 评论 ·
12 收藏

【T2I评估指标+计算】DINO、CLIP Score

这两个模型分别提取原始真实图片和生成图片之间的特征,然后对比这些特征之间的余弦相似度,如果相似度越高,就说明生成图片与原图的更相似,也就反映了生成物体的保真性更高。因为 DINO 和 CLIP 都是基于对比学习的方法,对比学习的损失是同一个样本之间才会是被认为正样本,会尽量让它们相似,那对于那种不同样本,即使是你同一个类下的不同样本,它也会被认为是负向样本,会尽量让特征远离,让它们的特征更不相似。对于同一个prompt,如果希望生成更多的种类的样本,需要余弦相似度越低越好,说明更多样。
原创
发布博客 2024.10.10 ·
827 阅读 ·
5 点赞 ·
0 评论 ·
16 收藏

【论文阅读】InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

特点:实现个性化文本到图像生成而无需测试时间微调。可以将输入图像转换为文本嵌入,使模型可以学习看不见的概念。可以保留输入身份。动机:个性化图像生成的最新进展允许预训练的文本到图像模型从一组图像中学习新概念。然而,现有的个性化方法通常需要对每个概念进行大量的测试时微调,这既耗时又难以扩展。我们提出了 InstantBooth,可以实现即时文本引导的图像个性化,无需任何测试时间微调。首先通过使用可学习的图像编码器将输入图像转换为文本标记来学习输入图像的一般概念。
原创
发布博客 2024.09.25 ·
715 阅读 ·
9 点赞 ·
0 评论 ·
9 收藏

【复现】Grounding DINO使用记录

解决: 运行 python setup.py install 编译groundingdino库。2.SSHerror:忘了具体的报错名,总之是使用。解决:CUDA 配置错误,参考官方说明去解决。或者用cpu-only模式,不启用CUDA。,并修改代码中相关路径,指向本地存放路径。
原创
发布博客 2024.09.21 ·
472 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

【debug】统一解决ModuleNotFoundError: No module named ‘xxx‘

如果希望这个修改永久生效,可以通过修改系统环境变量中的。本文适用于找不到自己创建的包的情况,需手动添加环境变量。,但上述方法适用于当前 PowerShell 会话。这个命令将会在 PowerShell 中为你的。
原创
发布博客 2024.09.18 ·
798 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

【论文阅读】Face2Diffusion for Fast and Editable Face Personalization

面部个性化旨在将从图像中获取的特定面部插入到预先训练的文本到图像扩散模型中。然而,由于对训练样本的过度拟合,以前的方法在保持身份相似性和可编辑性方面仍然具有挑战性。在本文中,我们提出了 Face2Diffusion (F2D),用于高可编辑性面部个性化。F2D 背后的核心思想是从训练管道中删除与身份无关的信息可以防止过度拟合问题并提高编码面部的可编辑性。F2D由以下三个新颖的组件组成:1)多尺度身份编码器提供了良好解开的身份特征,同时保留了多尺度信息的优势,从而提高了相机姿势的多样性。
原创
发布博客 2024.09.12 ·
544 阅读 ·
3 点赞 ·
1 评论 ·
6 收藏

【论文阅读+复现】InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models

这项工作研究了利用人与物体交互(HOI)信息调节 T2I 扩散模型的问题,首次将交互控制引入扩散模型。该信息由三元组标签(人、动作、物体)和相应的边界框组成。提出了一种可插拔的交互控制模型 InteractDiffusion,扩展了现有的预训练的 T2I 扩散模型,能够控制现有 T2I 扩散模型生成的交互和位置。具体来说,对 HOI 信息进行标记,并通过交互嵌入来了解它们的关系。训练调节自注意力层将 HOI 标记映射到视觉标记,从而在现有 T2I 扩散模型中更好地调节视觉标记。
原创
发布博客 2024.09.11 ·
1127 阅读 ·
29 点赞 ·
0 评论 ·
17 收藏

【debug】nvidia-smi:Failed to initialize NVML: Unknown Error

上执行 Docker 命令,因为容器本身没有权限直接重启自己。只能联系宿主机那边给重启一下容器。尚未以systemd作为初始系统启动。检查方法:ps -p 1 -o comm=今天用服务器时又突然报错cuda不可用,输入nvidia-smi检查,报错如题。想重启 Docker 容器中,通常需要在。尝试 exit 退出容器再进入:无效。等字样,那么是在某种虚拟化环境中。,那么说明没有虚拟化。但是文中的解决方法不管用~表示当前的环境是一个。
原创
发布博客 2024.09.07 ·
636 阅读 ·
8 点赞 ·
0 评论 ·
3 收藏

【论文阅读】CiteTracker: Correlating Image and Text for Visual Tracking

现有的视觉跟踪方法通常以图像块作为目标来跟踪。变化剧烈的目标跟踪困难。CiteTracker 通过连接图像和文本来增强视觉跟踪中的目标建模和推理。文本生成模块将目标图像块转换为包含其类别和属性信息的描述性文本,为目标提供全面的参考点。动态描述模块来适应目标变化,以实现更有效的目标表示。使用基于注意力的关联模块将目标描述和搜索图像关联起来,以生成相关特征以供目标状态参考。图 1. CiteTracker与现有跟踪方法在目标建模和关联方面的比较。
原创
发布博客 2024.09.04 ·
1268 阅读 ·
13 点赞 ·
0 评论 ·
20 收藏

【ssh】如何远程连接

出现报错:WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!SSH 检测到该主机的密钥与之前保存的密钥不匹配。确认后,新的密钥将被保存并建立连接。SSH 会提示你添加新的主机密钥到。
原创
发布博客 2024.09.03 ·
245 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

【ssh】环境问题汇总

解决:执行conda deactivate。如果 (ani) 环境多次激活,需要多次执行 conda deactivate 才能回到 base 环境。问题2:​manpath: can't set the locale;(base) 环境 是 Conda 安装后默认激活的环境。(ani) 是手动创建的另一个 Conda 环境。问题1.同时显示两个不同的 Conda 环境,如图。系统无法设置语言环境(locale)
原创
发布博客 2024.09.03 ·
257 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【debug】dpkg: error processing archive...Invalid cross-device link

表示/sys/module/overlay/parameters/metacopy 文件所在的文件系统是只读的,因此无法修改 metacopy 参数。报错:tee: /sys/module/overlay/parameters/metacopy: Read-only file system N。提到该报错有可能是 overlayfs 的问题或 dpkg 与 overlayfs 不兼容的问题。按照网上的方法尝试覆盖包、手动一次安装、强制安装,都无用,仍是一样的报错。无果,不是cuda指向错误。
原创
发布博客 2024.09.03 ·
653 阅读 ·
9 点赞 ·
0 评论 ·
5 收藏

【论文阅读】Single-Stage Visual Query Localization in Egocentric Videos

因此,VQLoC 联合建模查询与每个视频帧之间的查询到帧关系以及邻近视频帧之间的帧到帧关系(见图 1,右),然后在单帧中执行时空定位。阶段和端到端可训练的方式。具体来说,我们通过使用 DINO [34] 预训练的 ViT 主干提取视觉查询和每个视频帧的图像特征,并使用交叉注意力变换器模块 [45] 建立图像之间的对应关系,从而建立查询与帧的关系查询和视频帧中的区域。重要的是,我们的模型在单阶段运行,即没有具有专用后处理步骤的中间定位输出,并且是端到端可训练的,因为它仅使用可微分模块来获得最终预测。
原创
发布博客 2024.08.31 ·
1228 阅读 ·
18 点赞 ·
0 评论 ·
6 收藏

【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch

这意味着系统中安装的驱动包与正在使用的内核模块版本不匹配,导致了 GPU 驱动问题。可以看到目前系统安装的 NVIDIA 驱动包版本是。,但是内核模块显示的版本是。
原创
发布博客 2024.08.13 ·
1468 阅读 ·
8 点赞 ·
0 评论 ·
5 收藏

【TTS】EmotiVoice : a Multi-Voice and Prompt-Controlled TTS Engine

尝试训练自己的语音模型。
原创
发布博客 2024.07.08 ·
388 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

【原理+使用】DeepCache: Accelerating Diffusion Models for Free

DeepCache是一种新颖的无训练且几乎无损的范式,从模型架构的角度加速了扩散模型。DeepCache利用 扩散模型顺序去噪步骤中观察到的固有时间冗余,缓存和检索相邻去噪阶段的特征,从而减少冗余计算。利用U-Net的特性,重用高级特征,同时以低成本的方式更新低级特征。将 Stable Diffusion v1.5 加速了 2.3 倍,CLIP 分数仅下降了 0.05 倍,LDM-4-G(ImageNet) 加速了 4.1 倍,FID 降低了 0.22。
原创
发布博客 2024.07.07 ·
1609 阅读 ·
26 点赞 ·
0 评论 ·
10 收藏

【论文阅读】AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising

简介:异步去噪并行化扩散模型。提出了一种新的扩散模型分布式加速方法,该方法在对生成质量影响最小的情况下显著降低了推理延迟。原理:用异步过程取代顺序去噪过程,允许去噪模型的每个组件在不同的设备上独立运行。动机:扩散模型的多步顺序去噪特性导致了高累积延迟,无法并行计算。AsyncDiff是一个通用的即插即用加速方案,可以跨多个设备实现模型并行,将噪声预测模型分成多个组件,并将每个组件分配给不同的设备。为了打破组件之间的依赖链,它利用连续扩散步骤中隐藏状态之间的高度相似性,将传统的顺序去噪转换为异步过程。
原创
发布博客 2024.07.07 ·
659 阅读 ·
11 点赞 ·
0 评论 ·
7 收藏

【论文阅读】LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control

代码:
原创
发布博客 2024.07.06 ·
739 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

【扩散模型】LCM LoRA:一个通用的Stable Diffusion加速模块

潜在扩散模型(Latent Diffusion models, ldm)在高分辨率图像合成方面取得了显著的成果。然而,迭代采样过程计算量大,导致生成速度慢。受一致性模型的启发,我们提出了潜在一致性模型(Latent Consistency Models, lcm),能够在任何预训练的ldm上以最小的步骤进行快速推理,包括稳定扩散。原理:将引导反向扩散过程视为求解增强概率流ODE (PF-ODE), lcm设计用于直接预测潜在空间中此类ODE的解,从而减少了多次迭代的需要,并允许快速,高保真采样。
原创
发布博客 2024.07.06 ·
1811 阅读 ·
25 点赞 ·
1 评论 ·
23 收藏
加载更多