自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(102)
  • 收藏
  • 关注

原创 搞懂DINO

本文说明了什么是DINO以及为什么DINO有效

2025-10-19 09:44:47 310

原创 论文阅读-FoundationStereo

本文是FoundationStereo的论文精读

2025-10-07 16:44:33 1022

原创 论文阅读-Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching

本文是对Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching的论文精读。

2025-09-23 18:55:37 1069

原创 论文阅读-Correlate and Excite

本文是对论文Correlate and Excite的精读

2025-09-10 19:54:38 865

原创 论文阅读-SelectiveStereo

本文是对SelectiveStereo的论文精读。

2025-09-07 16:19:42 1212

原创 论文阅读-CompletionFormer

本文是对CompletionFormer的论文精读。

2025-08-26 20:22:57 1149

原创 论文阅读-Gated CRF Loss for Weakly Supervised Semantic Image Segmentation

GatedCRFLoss的论文精读

2025-08-17 12:34:09 1225

原创 论文阅读-ZeroDCE和ZeroDCE++

基于深度学习的实时亮度增强模型ZeroDCE和ZeroDCE++的论文精读

2025-08-09 19:15:26 957

原创 论文阅读-IGEV

IGEV的论文精读

2025-07-27 15:15:52 636

原创 论文阅读-RaftStereo

RaftStereo的论文精读。

2025-07-26 19:29:40 1174

原创 论文阅读 - FastInst

FastInst的论文阅读笔记

2025-07-20 11:33:10 720

原创 搞懂Score-based Generative Model

本文是在参考了网上的多个高质量教程之后,对Score-based Generative Model的相关内容进行的一次梳理。大部分内容来自B站UP主VictorYuki的视频,可以认为是学习视频内容时的笔记,参考的视频为【扩散模型 Diffusion Model 3-x】。文中不会涉及过于复杂的公式推导,尽量以结论性的内容为主,让读者对其整体框架有一个清晰了解。在阅读前,建议先阅读我的另一篇博客。

2025-03-24 10:01:38 700

原创 论文阅读 - Non-Local Spatial Propagation Network for Depth Completion

本文是论文Non-Local Spatial Propagation Network for Depth Completion的精读笔记

2024-02-15 21:01:13 2216 2

原创 论文阅读 - Understanding Diffusion Models: A Unified Perspective

本文是对Understanding Diffusion Models: A Unified Perspective的精读,略去了其中的一部分内容,之后会在其他博客单独成篇

2023-08-16 19:45:44 4181 7

原创 论文阅读 - SegFormer

本文是对Segformer论文的解读

2023-06-23 17:41:48 4067 1

原创 论文阅读 - Segment Anything

本文是对SegmentAnything这篇论文的解读,适合各种基础的人群

2023-04-19 22:09:04 4072 1

原创 论文阅读 - End-to-End Wireframe Parsing

本文是ICCV2019的一篇论文,核心是提出了一种简单的end-to-end的two-stage的检测图像中线段的方法。同时,文章也提出了一种新的评价线段检测效果的指标,这个指标可以惩罚同一个位置有交叠的线段预测,也可以惩罚连接错误的线段。

2023-03-05 15:19:28 1042 1

原创 深度学习基础-2

本文介绍了深度学习的基础知识,以全连接神经网络为例,介绍了全连接层,激活函数,交叉熵损失,计算图与反向传播,梯度消失与梯度爆炸,权重初始化,Batch Normalization。

2022-11-20 14:39:16 1511 1

原创 深度学习基础-1

本文介绍了深度学习的基础知识,以图像分类为例,介绍了图像的表示,线性分类器,损失函数,优化算法以及数据处理。

2022-11-08 21:33:44 1657

原创 搞懂图论中的中心性

度中心,特征向量中心性,katz中心性和PageRank的整理

2022-10-30 11:07:52 5490 4

原创 SynthText流程解读 - 不看代码不知道的那些事

本文描述了SynthText中生成虚拟OCR数据的代码流程

2022-08-05 13:28:39 1150

原创 Rust小技巧 - 通过FFI编程运行tensorrt模型

使用rust的FFI编程来调用tensorrt_pro

2022-06-10 16:54:26 1666

原创 tch-rs指南 - Tensor的基本操作

tch-rs中tensor的基本操作说明。

2022-05-10 16:59:15 2040

原创 Rust小技巧 - 把异步函数放进vector当中

有些时候,我们希望将将异步函数放到vector当中,或者说是注册进vector当中,然后在某个地方遍历这个vector来实现对已经注册了的异步函数的调用。

2022-05-09 14:21:47 831

原创 Rust小技巧 - 让函数既可接受String或&str,也可以返回String或&str

rust函数输入不同参数或者输出不同参数的方法。Into和Cow的应用。

2022-05-04 19:22:19 2984

原创 论文阅读 - CRNN

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition论文阅读

2022-03-07 18:59:42 5395

原创 论文阅读 - Spatial Transformer Networks

spatial transformer的论文阅读

2022-02-26 18:50:32 3622

原创 论文阅读 - Video Swin Transformer

video swin transformer解读

2022-02-14 15:41:47 14891 16

原创 搞懂CRF

文章目录1 前言2 Log-linear model3 MEMM3.1 模型概述3.2 label bias问题4 CRF4.1 模型概述4.2 模型训练4.3 模型解码4.4 小结参考资料1 前言条件随机场(conditional random field, CRF)是在建立序列模型时的常用模块,它的本质就是描述观测到的序列xˉ\bar{x}xˉ对应的状态序列yˉ\bar{y}yˉ​的概率,记作P(yˉ∣xˉ)P(\bar{y}|\bar{x})P(yˉ​∣xˉ)。这里字符上的横线表示这是一个序列,下

2022-02-08 17:10:15 3208

原创 论文阅读 - Is Space-Time Attention All You Need for Video Understanding?

这篇论文是在vision transformer的基础上,在时间维度进行了attention,将图像分类拓展到了视频分类。这也是第一个完全抛弃CNN,只用transformer搭建整个网络的视频分类模型。

2022-01-31 09:42:10 5906 1

原创 论文阅读 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

文章目录1 概述2 方法简述2.1 encoder之前2.2 encoder之后3 实验结果参考资料1 概述这篇论文是一篇将tranformer引入到图像领域的里程碑式的文章。因为这是第一次在处理图像时,将所有的卷积模块统统抛弃,只使用attention。并且实验证明了只用attention比使用卷积的网络在图像分类上效果要更好。正片文章的内容并不难理解,前提熟知transformer的原理,不了解或者想要回顾一下的小伙伴,可以看我的另一篇搞懂Transformer。而论文提出的vision tra

2022-01-29 10:22:20 3858

原创 小工具:基于颜色的视频和图片切割

文章目录1 前言2 方案简述3 效果1 前言最近做一个短视频相关的项目的时候,发现输入的视频有很多是有黑边的,有些可能是白边或者其他颜色的边。这对下游的模型处理有很大的影响。于是就写了一个自动判断填充边的颜色,并根据该颜色自动切割视频或者图片的小工具。这个真的挺方便的,所以就分享出来。代码可见https://github.com/zjuPeco/color_base_image_crop。2 方案简述所有的颜色都是将rgb值映射到hsv空间后,再映射到事先总结好的一个颜色表当中。每个hsv对应颜色

2022-01-17 19:11:01 2979 1

原创 论文阅读 - AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

autovc论文解读

2021-12-10 16:00:31 3337

原创 图像表格实线和虚线检测

图像中的实线和虚线检测

2021-11-12 10:49:45 4091

原创 Yolo系列知识点梳理(Yolov1-v5)

文章目录1 概述2 Yolo系列模型2.1 基石 - Yolov12.1.1 Yolov1的网络结构1 概述Yolo系列的模型是大多数做目标检测的图像算法工程师都在使用的,使用时经常也是先用了看看效果再说,如果效果不错,有时间再回头来研究一下模型,有时甚至就忘了回过头来细究。这篇文章就是一个回头的产物。Yolo的每一个系列都令人惊艳,本文综合了原始论文和网上各家的一些说法,把Yolo每个系列究竟产出了一些什么做一个系统的梳理,也方便我以后的再回头。如果Yolo之后有人继续更新下去,本文也会尽量做到继

2021-10-23 20:00:51 11066

原创 论文阅读 - Joint Beat and Downbeat Tracking with Recurrent Neural Networks

文章目录1 概述2 信号预处理3 分类神经网络4 动态贝叶斯网络(HMM)4.1 原始的bar pointer model4.2 原始的bar pointer model的缺点4.3 改进后的模型5 预测参考资料1 概述最近在做音乐卡点相关的项目,需要对音乐的基本特征进行理解,比如beats和downbeats就是最基本的特征。madmom是我找到的一个对beats和downbeats的检测都有实现的第三方库,于是就认真学习了一下,把其中用到的方法和自己的理解记录下来。madmom中的beats和do

2021-09-10 17:56:09 2200 9

原创 speech production model

文章目录1 概述2 source model3 filter model4 小结参考资料1 概述本文的目的是为了厘清在speech production model中source model和filter model所扮演的角色,不涉及具体公式的推导或者模型的建立,只是为了把这两个model在干什么事情说明白。文中用到的图片均来自底部参考资料,如有侵权,必定删除。如下图1-1所示,speech production model把人发声的过程分成了三大块,分别是power,source和filter。

2021-09-04 21:57:30 758

原创 搞懂语音去噪

文章目录1 概述2 传统语音去噪2.1 谱减法2.2 滤波法3 深度语音去噪1 概述2 传统语音去噪2.1 谱减法2.2 滤波法3 深度语音去噪

2021-09-03 11:32:51 12372 3

原创 搞懂HMM

文章目录1 概述2 符号说明3 Evaluation4 Learning5 Decoding参考资料1 概述本文是B站上机器学习-白板推导系列(十四)-隐马尔可夫模型HMM的学习笔记,UP主讲得实在是太清楚了,赶紧记录下来,以防之后忘记。2 符号说明3 Evaluation4 Learning5 Decoding参考资料[1] 机器学习-白板推导系列(十四)-隐马尔可夫模型HMM......

2021-08-22 12:08:03 1551 1

原创 论文阅读 - Group Normalization

文章目录1 概述2 几种normalization的方法2.1 Batch Norm2.2 Layer Norm2.3 Instance Norm2.4 Group Norm3 效果对比参考文献1 概述Group Nomralization的提出是为了解决一张GPU上能容纳的batch_size很小,导致模型训练效果显著变差的问题。随着深度学习的快速发展,我们所使用的模型越来越大了,这也就导致了在训练时,一个batch所占用的显存越来越大了,也i就导致了一张卡上的batch_size会很小,最终导致了模

2021-06-05 18:57:02 961 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除