- 博客(102)
- 收藏
- 关注
原创 论文阅读-Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching
本文是对Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching的论文精读。
2025-09-23 18:55:37
1069
原创 论文阅读-Gated CRF Loss for Weakly Supervised Semantic Image Segmentation
GatedCRFLoss的论文精读
2025-08-17 12:34:09
1225
原创 搞懂Score-based Generative Model
本文是在参考了网上的多个高质量教程之后,对Score-based Generative Model的相关内容进行的一次梳理。大部分内容来自B站UP主VictorYuki的视频,可以认为是学习视频内容时的笔记,参考的视频为【扩散模型 Diffusion Model 3-x】。文中不会涉及过于复杂的公式推导,尽量以结论性的内容为主,让读者对其整体框架有一个清晰了解。在阅读前,建议先阅读我的另一篇博客。
2025-03-24 10:01:38
700
原创 论文阅读 - Non-Local Spatial Propagation Network for Depth Completion
本文是论文Non-Local Spatial Propagation Network for Depth Completion的精读笔记
2024-02-15 21:01:13
2216
2
原创 论文阅读 - Understanding Diffusion Models: A Unified Perspective
本文是对Understanding Diffusion Models: A Unified Perspective的精读,略去了其中的一部分内容,之后会在其他博客单独成篇
2023-08-16 19:45:44
4181
7
原创 论文阅读 - End-to-End Wireframe Parsing
本文是ICCV2019的一篇论文,核心是提出了一种简单的end-to-end的two-stage的检测图像中线段的方法。同时,文章也提出了一种新的评价线段检测效果的指标,这个指标可以惩罚同一个位置有交叠的线段预测,也可以惩罚连接错误的线段。
2023-03-05 15:19:28
1042
1
原创 深度学习基础-2
本文介绍了深度学习的基础知识,以全连接神经网络为例,介绍了全连接层,激活函数,交叉熵损失,计算图与反向传播,梯度消失与梯度爆炸,权重初始化,Batch Normalization。
2022-11-20 14:39:16
1511
1
原创 Rust小技巧 - 把异步函数放进vector当中
有些时候,我们希望将将异步函数放到vector当中,或者说是注册进vector当中,然后在某个地方遍历这个vector来实现对已经注册了的异步函数的调用。
2022-05-09 14:21:47
831
原创 Rust小技巧 - 让函数既可接受String或&str,也可以返回String或&str
rust函数输入不同参数或者输出不同参数的方法。Into和Cow的应用。
2022-05-04 19:22:19
2984
原创 论文阅读 - CRNN
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition论文阅读
2022-03-07 18:59:42
5395
原创 搞懂CRF
文章目录1 前言2 Log-linear model3 MEMM3.1 模型概述3.2 label bias问题4 CRF4.1 模型概述4.2 模型训练4.3 模型解码4.4 小结参考资料1 前言条件随机场(conditional random field, CRF)是在建立序列模型时的常用模块,它的本质就是描述观测到的序列xˉ\bar{x}xˉ对应的状态序列yˉ\bar{y}yˉ的概率,记作P(yˉ∣xˉ)P(\bar{y}|\bar{x})P(yˉ∣xˉ)。这里字符上的横线表示这是一个序列,下
2022-02-08 17:10:15
3208
原创 论文阅读 - Is Space-Time Attention All You Need for Video Understanding?
这篇论文是在vision transformer的基础上,在时间维度进行了attention,将图像分类拓展到了视频分类。这也是第一个完全抛弃CNN,只用transformer搭建整个网络的视频分类模型。
2022-01-31 09:42:10
5906
1
原创 论文阅读 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文章目录1 概述2 方法简述2.1 encoder之前2.2 encoder之后3 实验结果参考资料1 概述这篇论文是一篇将tranformer引入到图像领域的里程碑式的文章。因为这是第一次在处理图像时,将所有的卷积模块统统抛弃,只使用attention。并且实验证明了只用attention比使用卷积的网络在图像分类上效果要更好。正片文章的内容并不难理解,前提熟知transformer的原理,不了解或者想要回顾一下的小伙伴,可以看我的另一篇搞懂Transformer。而论文提出的vision tra
2022-01-29 10:22:20
3858
原创 小工具:基于颜色的视频和图片切割
文章目录1 前言2 方案简述3 效果1 前言最近做一个短视频相关的项目的时候,发现输入的视频有很多是有黑边的,有些可能是白边或者其他颜色的边。这对下游的模型处理有很大的影响。于是就写了一个自动判断填充边的颜色,并根据该颜色自动切割视频或者图片的小工具。这个真的挺方便的,所以就分享出来。代码可见https://github.com/zjuPeco/color_base_image_crop。2 方案简述所有的颜色都是将rgb值映射到hsv空间后,再映射到事先总结好的一个颜色表当中。每个hsv对应颜色
2022-01-17 19:11:01
2979
1
原创 论文阅读 - AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss
autovc论文解读
2021-12-10 16:00:31
3337
原创 Yolo系列知识点梳理(Yolov1-v5)
文章目录1 概述2 Yolo系列模型2.1 基石 - Yolov12.1.1 Yolov1的网络结构1 概述Yolo系列的模型是大多数做目标检测的图像算法工程师都在使用的,使用时经常也是先用了看看效果再说,如果效果不错,有时间再回头来研究一下模型,有时甚至就忘了回过头来细究。这篇文章就是一个回头的产物。Yolo的每一个系列都令人惊艳,本文综合了原始论文和网上各家的一些说法,把Yolo每个系列究竟产出了一些什么做一个系统的梳理,也方便我以后的再回头。如果Yolo之后有人继续更新下去,本文也会尽量做到继
2021-10-23 20:00:51
11066
原创 论文阅读 - Joint Beat and Downbeat Tracking with Recurrent Neural Networks
文章目录1 概述2 信号预处理3 分类神经网络4 动态贝叶斯网络(HMM)4.1 原始的bar pointer model4.2 原始的bar pointer model的缺点4.3 改进后的模型5 预测参考资料1 概述最近在做音乐卡点相关的项目,需要对音乐的基本特征进行理解,比如beats和downbeats就是最基本的特征。madmom是我找到的一个对beats和downbeats的检测都有实现的第三方库,于是就认真学习了一下,把其中用到的方法和自己的理解记录下来。madmom中的beats和do
2021-09-10 17:56:09
2200
9
原创 speech production model
文章目录1 概述2 source model3 filter model4 小结参考资料1 概述本文的目的是为了厘清在speech production model中source model和filter model所扮演的角色,不涉及具体公式的推导或者模型的建立,只是为了把这两个model在干什么事情说明白。文中用到的图片均来自底部参考资料,如有侵权,必定删除。如下图1-1所示,speech production model把人发声的过程分成了三大块,分别是power,source和filter。
2021-09-04 21:57:30
758
原创 搞懂语音去噪
文章目录1 概述2 传统语音去噪2.1 谱减法2.2 滤波法3 深度语音去噪1 概述2 传统语音去噪2.1 谱减法2.2 滤波法3 深度语音去噪
2021-09-03 11:32:51
12372
3
原创 搞懂HMM
文章目录1 概述2 符号说明3 Evaluation4 Learning5 Decoding参考资料1 概述本文是B站上机器学习-白板推导系列(十四)-隐马尔可夫模型HMM的学习笔记,UP主讲得实在是太清楚了,赶紧记录下来,以防之后忘记。2 符号说明3 Evaluation4 Learning5 Decoding参考资料[1] 机器学习-白板推导系列(十四)-隐马尔可夫模型HMM......
2021-08-22 12:08:03
1551
1
原创 论文阅读 - Group Normalization
文章目录1 概述2 几种normalization的方法2.1 Batch Norm2.2 Layer Norm2.3 Instance Norm2.4 Group Norm3 效果对比参考文献1 概述Group Nomralization的提出是为了解决一张GPU上能容纳的batch_size很小,导致模型训练效果显著变差的问题。随着深度学习的快速发展,我们所使用的模型越来越大了,这也就导致了在训练时,一个batch所占用的显存越来越大了,也i就导致了一张卡上的batch_size会很小,最终导致了模
2021-06-05 18:57:02
961
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅