zyw2002
码龄5年
关注
提问 私信
  • 博客:1,123,954
    社区:78
    1,124,032
    总访问量
  • 211
    原创
  • 38,557
    排名
  • 69,747
    粉丝
  • 5,725
    铁粉
  • 学习成就

个人简介:Github: https://github.com/zyw-stu Talent hits a target no one else can hit; Genius hits a target no one else can see;

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 毕业院校: 同济大学
  • 加入CSDN时间: 2020-04-10
博客简介:

zyw2002的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    9
    当前总分
    9,048
    当月
    124
个人成就
  • 获得3,108次点赞
  • 内容获得595次评论
  • 获得15,318次收藏
  • 代码片获得58,837次分享
创作历程
  • 6篇
    2024年
  • 28篇
    2023年
  • 127篇
    2022年
  • 50篇
    2021年
成就勋章
TA的专栏
  • 大模型和多模态
    6篇
  • python基础
    16篇
  • 深度学习基础
    13篇
  • 深度学习框架
    14篇
  • 计算机视觉基础
    3篇
  • 2D目标检测
    10篇
  • 3d目标检测
    22篇
  • OpenCV
    13篇
  • 图像增强
    7篇
  • ROS机器人
    7篇
  • 前端开发
  • 网站搭建
    2篇
  • 微信小程序
    5篇
  • 安卓开发
    8篇
  • Django
    6篇
  • Vue
    1篇
  • 工具
    3篇
  • CS本科课程
  • 操作系统
    7篇
  • 数据结构
    15篇
  • 计算机网络
    6篇
  • 数据库
    16篇
  • 计算机体系结构
    7篇
  • 大数据
    5篇
  • 编译原理
    1篇
  • 汇编与接口技术
    7篇
  • 程序设计模式
    1篇
  • 高性能计算
    4篇
  • 数学基础
    3篇
  • 数学建模
    1篇
  • 英语
    3篇
  • 算法
    4篇
兴趣领域 设置
  • 人工智能
    计算机视觉目标检测深度学习自动驾驶transformerYOLO
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Diffusion Model, Stable Diffusion, Stable Diffusion XL 详解

常见的生成模型有:文生图模型的基本架构如下:衡量图像生成质量的指标基于上述思想,Denoising diffusion 模型包括两个过程:首先,我们先来介绍一下如何破坏数据分布。如果我们取任何一幅图像(上图a),它具有某种非随机分布。我们不知道这个分布,但我们的目标是破坏它,我们可以通过向其添加噪声来实现。在这个过程的最后,我们应该得到类似于纯噪声的噪声(上图b)。前向扩散过程的每一步被定义为q(xt∣xt−1)=N(xt,1−βtxt−1,βtI)q(x_t|x_{t-1})= \mathcal{N}
原创
发布博客 2024.05.27 ·
2322 阅读 ·
14 点赞 ·
3 评论 ·
39 收藏

DenseCLIP论文讲解

提出背景现有的方法大多数用CLIP预训练模型来解决分类任务,但是很少应用在密集预测的任务上。本文就主要研究如何微调预训练的CLIP模型,使其可以应用于密集预测任务困难挑战与传统的ImageNet预训练模型相比,最大的挑战是上游对比预训练任务和下游逐像素预测任务之间的gap,前者涉及图像和文本的实例级表示,而后者仅基于像素级的视觉信息。解决思路为了解决上述问题,通过隐式和显式地利用来自CLIP的预训练知识,提出了一个语言引导的密集预测框架:DenseCLIP。该框架是模型不可知()且即插即用(
原创
发布博客 2024.05.09 ·
926 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

BLIP和BLIP2 论文讲解

通过将Q-Former的输出连接到一个冻结的LLM来执行视觉到语言的生成学习,并训练Q-Former,使其输出的视觉表示可以被LLM解释。ITM是一个二元分类任务,其中模型使用ITM头(线性层)来预测给定图像-文本对的多模态特征是正的(匹配的)还是负的(不匹配的)。它的目的是通过鼓励positive的图像-文本具有相似的表示 (相反,使得negtive的图像文本队具有不同的表示) 来。它们作为软视觉提示(,我们将QFormer (包括冻结图像编码器) 连接到冻结的LLM,以获取LLM的生成语言能力。
原创
发布博客 2024.05.09 ·
1648 阅读 ·
28 点赞 ·
0 评论 ·
35 收藏

CLIP论文讲解和代码实操

研究动机作者的研究动机就是在 NLP 领域利用大规模数据去预训练模型,而且用这种跟下游任务无关的训练方式,NLP 那边取得了非常革命性的成功,比如 GPT-3。作者希望把 NLP 中的这种成功应用到其他领域,如视觉领域。在预训练时 CLIP 使用了对比学习,利用文本的提示去做 zero-shot 迁移学习。在大规模数据集和大模型的双向加持下,CLIP 的性能可以与特定任务的有监督训练出来的模型竞争,同时也有很大的改进空间。CLIP 概述。
原创
发布博客 2024.04.17 ·
4439 阅读 ·
38 点赞 ·
2 评论 ·
71 收藏

Mamba复现与代码解读

下图是Mamba论文中的算法介绍:上图中算法的核心是第5步和第6步:第5步是对连续的矩阵A,B进行离散化得到离散化后的矩阵。
原创
发布博客 2024.03.23 ·
26288 阅读 ·
103 点赞 ·
27 评论 ·
477 收藏

Mamba 基础讲解【SSM,LSSL,S4,S5,Mamba】

🐍 Mamba是一种状态空间模型(SSM)架构,它改进了S4架构。选择性扫描算法(selective scan algorithm),允许模型过滤相关或者不相关的信息硬件感知的算法(hardware-aware algorithm),允许通过并行扫描(parallel scan)、核融合(kernel fusion)和重计算(recomputation)有效地存储(中间)结果。
原创
发布博客 2024.03.21 ·
31469 阅读 ·
227 点赞 ·
19 评论 ·
630 收藏

论文详解——《Deep Color Consistent Network for Low-Light Image Enhancement》

微光图像增强(LLIE)研究了如何细化光照,获得自然的正常光照图像。目前的LLIE方法主要侧重于提高光照,而没有合理地将颜色信息纳入LLIE过程中来考虑颜色的一致性。因此,增强后的图像与地面真值之间往往存在色差。为了解决这个问题,我们提出了一种新的深颜色一致性网络,称为DCC-Net,以保持LLIE的颜色一致性。提出了一种新的“分而治之”的协同策略,该策略可以共同保存颜色信息,同时增强光照。具体来说,我们的DCC-Net解耦策略将每个彩色图像解耦为两个主要成分,即灰度图像和颜色直方图。
原创
发布博客 2023.08.23 ·
1343 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

论文详解——《Learning Semantic-Aware Knowledge Guidance for Low-Light Image Enhancement》

弱光图像增强(LLIE)研究如何提高照明和产生正常光图像。现有的方法大多采用全局统一的方式对微光图像进行改进,而没有考虑不同区域的语义信息。如果没有语义先验,网络很容易偏离区域的原始颜色。为了解决这一问题,我们提出了一种新的语义感知知识引导框架(semantic-aware knowledge-guided framework, SKF),该框架可以帮助弱光增强模型学习包含在语义分割模型中的丰富和多样化的先验。我们专注于从三个关键方面整合语义知识 :一个。
原创
发布博客 2023.08.23 ·
2169 阅读 ·
6 点赞 ·
0 评论 ·
18 收藏

论文及代码详解——Restormer

由于对大补丁的训练需要花费更长的时间,所以随着补丁大小的增加,我们减少了批处理的大小,以便在每个优化步骤中保持与固定补丁训练相同的时间。在代码实现上,用于生成k,q,v的三条支路中的1x1的卷积(point-wise)和3x3的Dconv(depth-wise) 是在原始输入上一起做的,完成后再在通道维度分成三块。但是在代码实现部分,两条支路中的1x1的卷积(point-wise)和3x3的Dconv(depth-wise) 是在原始输入上一起做的,完成后再在通道维度分成两块。
原创
发布博客 2023.08.22 ·
4123 阅读 ·
8 点赞 ·
0 评论 ·
28 收藏

论文及代码详解——HRNet

让我们看一个融合3-resolution representations的例子,如图3所示。我们从一个高分辨率的卷积流作为第一阶段,逐步将高分辨率到低分辨率的流逐个添加,形成新的阶段,并将多分辨率流并行连接。因此,后一阶段并行流的分辨率由前一阶段的分辨率和一个更低的分辨率组成。我们通过bilinear upsampling对低分辨率表示进行缩放,而不改变高分辨率的通道数,并将四种表示连接起来,然后进行1 × 1卷积来混合这四种表示。定义了一个3x3的卷积,当stride=1时,输出大小不变。
原创
发布博客 2023.08.21 ·
2077 阅读 ·
4 点赞 ·
0 评论 ·
25 收藏

YOLOv8改进——引入可变形卷积DCNv3

本文只讲解在YOLOv8的代码中添加DCNv3的操作流程, 具体的原理参见上述的链接~是pytorch实现的版本,只要基础的pytorch环境安装正确就不会出错。是C++实现版本,必须先在上一步编译成功,或者安装好了轮子,否则会报错。但是在实际的训练过程中,C++版本的运行速度更快,推荐使用C++版本。(具体怎么修改,都可以自己决定,然后通过实验看看效果如何)文件夹,该文件夹下的内容就是实现DCNv3算子的核心代码。中,下图中的列表里添加。
原创
发布博客 2023.08.21 ·
22853 阅读 ·
63 点赞 ·
108 评论 ·
405 收藏

代码详解——可变形卷积(DCNv3)

如下图,首先下载InterImage官方代码,然后在segmentation、detection、classification文件夹下均可以找到ops_dcnv3文件夹,该文件夹下的内容就是实现DCNv3算子的核心代码。modules如下图所示,modules文件夹中的dcnv3.py文件主要定义了DCNv3模块。其中是DCNv3的pytorch实现版本,DCNv3是DCNv3的C++实现版本。functions如下图所示,function文件夹中的文件定义了DCNv3的一些核心操作。
原创
发布博客 2023.08.21 ·
15868 阅读 ·
35 点赞 ·
17 评论 ·
175 收藏

论文详解——《InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions》

原文翻译摘要与近年来large-scale vision Transformer(ViTs)取得的巨大进展相比,基于卷积神经网络(cnn)的大型模型尚处于早期阶段。本文提出了一种新的large-scale CNN-based foundation model,称为。类似于VIT,该模型可以通过增加参数和训练数据获得增益。与最近的CNN聚焦于large dense kernels不同,
原创
发布博客 2023.08.18 ·
5874 阅读 ·
20 点赞 ·
0 评论 ·
78 收藏

论文及代码详解——可变形卷积(DCNv2)

DCNv2 是在DCNv1的基础上的改进版。理解DCNv2之前,建议先读。
原创
发布博客 2023.08.17 ·
10458 阅读 ·
17 点赞 ·
2 评论 ·
103 收藏

论文及代码详解——可变形卷积(DCNv1)

这四对坐标每个坐标都对应U中的一个像素值, 而我们需要得到(a,b)的像素值, 这里采用双线性差值的方式计算, 因为一方面得到的像素准确, 另一方面可以进行反向传播。DCN的卷积过程和普通卷积一样,如上图所示,假设有个2x2的kernel, 它也是以一个2x2的滑窗的形式(绿色的框)在原始图片上从左到右,从上到下进行滑动。采样点的像素值和上文中提到的可变形卷积中的一样,也是通过双线性插值得到的。它的每roi计算成本可以忽略不计。我们实验了不同数量的这类层,发现3是不同任务的一个很好的权衡,如表1所示。
原创
发布博客 2023.08.17 ·
6749 阅读 ·
23 点赞 ·
2 评论 ·
124 收藏

发明专利写作模板和指导以及案例分析

写作模板:发明名称一种(基于)xxx的xxx方法发明摘要本发明公开了一种xxx的方法,(1. 先简要概况发明的内容)(2. 讲述本发明解决了什么技术问题)(3. 获得了什么样的有益效果)写作指导说明书摘要就是本发明的方案概述以及达到的技术效果,不能超过300字。写作套路就是把权利要求1概括一下再增加一些技术效果,这个一般写完权利要求再写;案例分析案例一 : (一种基于多尺度注意力机制网络模型的语义交通信号灯检测方法)写作指导。
原创
发布博客 2023.08.15 ·
11886 阅读 ·
40 点赞 ·
1 评论 ·
146 收藏

代码详解 —— VGG Loss

可以把VGG网络看成是数个vgg_block的堆叠,每个vgg_block由几个卷积层+ReLU层,最后加上一层池化层组成。VGG网络名称后面的数字表示整个网络中包含参数层的数量(卷积层或全连接层,不含池化层),如图所示。假设输入分别是x和y,vgg loss 的值就是分别将x和y将5个sclice输出计算loss,一共有5个loss。VGG网络采用重复堆叠的小卷积核替代大卷积核,在保证具有相同感受野的条件下,提升了网络的深度,从而提升网络特征提取的能力。,对应着VGG19中的各个网络层。
原创
发布博客 2023.08.14 ·
2599 阅读 ·
2 点赞 ·
0 评论 ·
13 收藏

SR中的常见的损失函数

广泛的MOS测试(第2.3.3节)表明,尽管使用对抗损失和内容损失训练的SR模型比使用像素损失训练的SR模型获得更低的PSNR,但它们在感知质量[8],[25]上有显著的提高。实际上,该鉴别器提取了真实HR图像中一些难以学习的潜在模式,并推动生成的HR图像符合,从而有助于生成更真实的图像。与上述研究关注对抗损失的具体形式不同,Park等人[133]认为像素级鉴别器导致产生无意义的高频噪声,并附加另一个特征级鉴别器对经过预处理的CNN提取的高级表示进行操作,该CNN能够捕获真实HR图像中更有意义的属性。
原创
发布博客 2023.08.14 ·
1064 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

论文及代码详解 ——《SNR-Aware Low-light Image Enhancement》

本文提出了一种新的弱光图像增强解决方案,通过综合利用和,利用空间变化操作动态增强像素。它们是对极低信噪比(SNR)图像区域的long-range操作和对其他区域的操作。我们提出在引导特征融合之前先考虑信噪比,并利用一种新的自注意模型构建SNR-aware Transformer,以避免来自极低信噪比的噪声图像区域的token。大量的实验表明,在7个具有代表性的基准测试中,我们的框架始终比SOTA方法获得更好的性能。
原创
发布博客 2023.08.13 ·
4313 阅读 ·
12 点赞 ·
0 评论 ·
28 收藏

代码详解——Transformer

对于一个序列,在 time_step 为 t 的时刻,我们的解码输出应该只能依赖于 t 时刻之前的输出,而不能依赖 t 之后的输出。当 Decoder 的输入矩阵和 Mask 矩阵输入矩阵包含 “ I have a cat” (0, 1, 2, 3, 4) 五个单词的表示向量,Mask 是一个 5×5 的矩阵。然后判断是否传入的mask, 如果有mask (mask参数值不为None),则把mask为0的位置,将对应位置的attn的值设为无穷小的负数。可以发现得到的输出和输入的K,Q,V的大小相同。
原创
发布博客 2023.08.13 ·
5252 阅读 ·
27 点赞 ·
1 评论 ·
80 收藏
加载更多