自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(90)
  • 收藏
  • 关注

原创 论文阅读 - Non-Local Spatial Propagation Network for Depth Completion

本文是论文Non-Local Spatial Propagation Network for Depth Completion的精读笔记

2024-02-15 21:01:13 1147 1

原创 论文阅读 - Understanding Diffusion Models: A Unified Perspective

本文是对Understanding Diffusion Models: A Unified Perspective的精读,略去了其中的一部分内容,之后会在其他博客单独成篇

2023-08-16 19:45:44 1702 4

原创 论文阅读 - SegFormer

本文是对Segformer论文的解读

2023-06-23 17:41:48 1340 1

原创 论文阅读 - Segment Anything

本文是对SegmentAnything这篇论文的解读,适合各种基础的人群

2023-04-19 22:09:04 2592 1

原创 论文阅读 - End-to-End Wireframe Parsing

本文是ICCV2019的一篇论文,核心是提出了一种简单的end-to-end的two-stage的检测图像中线段的方法。同时,文章也提出了一种新的评价线段检测效果的指标,这个指标可以惩罚同一个位置有交叠的线段预测,也可以惩罚连接错误的线段。

2023-03-05 15:19:28 505 1

原创 深度学习基础-2

本文介绍了深度学习的基础知识,以全连接神经网络为例,介绍了全连接层,激活函数,交叉熵损失,计算图与反向传播,梯度消失与梯度爆炸,权重初始化,Batch Normalization。

2022-11-20 14:39:16 1181 1

原创 深度学习基础-1

本文介绍了深度学习的基础知识,以图像分类为例,介绍了图像的表示,线性分类器,损失函数,优化算法以及数据处理。

2022-11-08 21:33:44 1354

原创 搞懂图论中的中心性

度中心,特征向量中心性,katz中心性和PageRank的整理

2022-10-30 11:07:52 2699 2

原创 SynthText流程解读 - 不看代码不知道的那些事

本文描述了SynthText中生成虚拟OCR数据的代码流程

2022-08-05 13:28:39 603

原创 Rust小技巧 - 通过FFI编程运行tensorrt模型

使用rust的FFI编程来调用tensorrt_pro

2022-06-10 16:54:26 1111

原创 tch-rs指南 - Tensor的基本操作

tch-rs中tensor的基本操作说明。

2022-05-10 16:59:15 1380

原创 Rust小技巧 - 把异步函数放进vector当中

有些时候,我们希望将将异步函数放到vector当中,或者说是注册进vector当中,然后在某个地方遍历这个vector来实现对已经注册了的异步函数的调用。

2022-05-09 14:21:47 503

原创 Rust小技巧 - 让函数既可接受String或&str,也可以返回String或&str

rust函数输入不同参数或者输出不同参数的方法。Into和Cow的应用。

2022-05-04 19:22:19 1911

原创 论文阅读 - CRNN

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition论文阅读

2022-03-07 18:59:42 4864

原创 论文阅读 - Spatial Transformer Networks

spatial transformer的论文阅读

2022-02-26 18:50:32 3148

原创 论文阅读 - Video Swin Transformer

video swin transformer解读

2022-02-14 15:41:47 7980 15

原创 搞懂CRF

文章目录1 前言2 Log-linear model3 MEMM3.1 模型概述3.2 label bias问题4 CRF4.1 模型概述4.2 模型训练4.3 模型解码4.4 小结参考资料1 前言条件随机场(conditional random field, CRF)是在建立序列模型时的常用模块,它的本质就是描述观测到的序列xˉ\bar{x}xˉ对应的状态序列yˉ\bar{y}yˉ​的概率,记作P(yˉ∣xˉ)P(\bar{y}|\bar{x})P(yˉ​∣xˉ)。这里字符上的横线表示这是一个序列,下

2022-02-08 17:10:15 2705

原创 论文阅读 - Is Space-Time Attention All You Need for Video Understanding?

这篇论文是在vision transformer的基础上,在时间维度进行了attention,将图像分类拓展到了视频分类。这也是第一个完全抛弃CNN,只用transformer搭建整个网络的视频分类模型。

2022-01-31 09:42:10 4965 1

原创 论文阅读 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

文章目录1 概述2 方法简述2.1 encoder之前2.2 encoder之后3 实验结果参考资料1 概述这篇论文是一篇将tranformer引入到图像领域的里程碑式的文章。因为这是第一次在处理图像时,将所有的卷积模块统统抛弃,只使用attention。并且实验证明了只用attention比使用卷积的网络在图像分类上效果要更好。正片文章的内容并不难理解,前提熟知transformer的原理,不了解或者想要回顾一下的小伙伴,可以看我的另一篇搞懂Transformer。而论文提出的vision tra

2022-01-29 10:22:20 3197 1

原创 小工具:基于颜色的视频和图片切割

文章目录1 前言2 方案简述3 效果1 前言最近做一个短视频相关的项目的时候,发现输入的视频有很多是有黑边的,有些可能是白边或者其他颜色的边。这对下游的模型处理有很大的影响。于是就写了一个自动判断填充边的颜色,并根据该颜色自动切割视频或者图片的小工具。这个真的挺方便的,所以就分享出来。代码可见https://github.com/zjuPeco/color_base_image_crop。2 方案简述所有的颜色都是将rgb值映射到hsv空间后,再映射到事先总结好的一个颜色表当中。每个hsv对应颜色

2022-01-17 19:11:01 2691

原创 论文阅读 - AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

autovc论文解读

2021-12-10 16:00:31 2824

原创 图像表格实线和虚线检测

图像中的实线和虚线检测

2021-11-12 10:49:45 3149

原创 Yolo系列知识点梳理(Yolov1-v5)

文章目录1 概述2 Yolo系列模型2.1 基石 - Yolov12.1.1 Yolov1的网络结构1 概述Yolo系列的模型是大多数做目标检测的图像算法工程师都在使用的,使用时经常也是先用了看看效果再说,如果效果不错,有时间再回头来研究一下模型,有时甚至就忘了回过头来细究。这篇文章就是一个回头的产物。Yolo的每一个系列都令人惊艳,本文综合了原始论文和网上各家的一些说法,把Yolo每个系列究竟产出了一些什么做一个系统的梳理,也方便我以后的再回头。如果Yolo之后有人继续更新下去,本文也会尽量做到继

2021-10-23 20:00:51 5502

原创 论文阅读 - Joint Beat and Downbeat Tracking with Recurrent Neural Networks

文章目录1 概述2 信号预处理3 分类神经网络4 动态贝叶斯网络(HMM)4.1 原始的bar pointer model4.2 原始的bar pointer model的缺点4.3 改进后的模型5 预测参考资料1 概述最近在做音乐卡点相关的项目,需要对音乐的基本特征进行理解,比如beats和downbeats就是最基本的特征。madmom是我找到的一个对beats和downbeats的检测都有实现的第三方库,于是就认真学习了一下,把其中用到的方法和自己的理解记录下来。madmom中的beats和do

2021-09-10 17:56:09 1550 9

原创 speech production model

文章目录1 概述2 source model3 filter model4 小结参考资料1 概述本文的目的是为了厘清在speech production model中source model和filter model所扮演的角色,不涉及具体公式的推导或者模型的建立,只是为了把这两个model在干什么事情说明白。文中用到的图片均来自底部参考资料,如有侵权,必定删除。如下图1-1所示,speech production model把人发声的过程分成了三大块,分别是power,source和filter。

2021-09-04 21:57:30 432

原创 搞懂语音去噪

文章目录1 概述2 传统语音去噪2.1 谱减法2.2 滤波法3 深度语音去噪1 概述2 传统语音去噪2.1 谱减法2.2 滤波法3 深度语音去噪

2021-09-03 11:32:51 8042 2

原创 搞懂HMM

文章目录1 概述2 符号说明3 Evaluation4 Learning5 Decoding参考资料1 概述本文是B站上机器学习-白板推导系列(十四)-隐马尔可夫模型HMM的学习笔记,UP主讲得实在是太清楚了,赶紧记录下来,以防之后忘记。2 符号说明3 Evaluation4 Learning5 Decoding参考资料[1] 机器学习-白板推导系列(十四)-隐马尔可夫模型HMM......

2021-08-22 12:08:03 771 1

原创 论文阅读 - Group Normalization

文章目录1 概述2 几种normalization的方法2.1 Batch Norm2.2 Layer Norm2.3 Instance Norm2.4 Group Norm3 效果对比参考文献1 概述Group Nomralization的提出是为了解决一张GPU上能容纳的batch_size很小,导致模型训练效果显著变差的问题。随着深度学习的快速发展,我们所使用的模型越来越大了,这也就导致了在训练时,一个batch所占用的显存越来越大了,也i就导致了一张卡上的batch_size会很小,最终导致了模

2021-06-05 18:57:02 538 2

原创 论文阅读 - Jukebox: A Generative Model for Music

文章目录1 概述2 什么是VQ-VAE2.1 Auto-encoder(AE)2.2 Variational AutoEncoder(VAE)2.3 Vector-Quantized Variational AutoEncoder(VQ-VAE)2.4 VQ-VAE-23 Music VQ-VAE4 Prior and upsamplers5 Lyrics Conditioning参考文献By learning to produce the data, we can learn the best fea

2021-04-30 16:36:59 2982

原创 Chapter7-13_Dialogue State Tracking (as Question Answering)

文章目录1 什么是Dialogue State Tracking2 数据集3 两个挑战4 经典模型本文为李弘毅老师【Dialogue State Tracking (as Question Answering)】的课程笔记,课程视频youtube地址,点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。文章索引:上篇 - 7-12 Controllable Chatbot下篇 - 无总目录1 什么是Dialogue State TrackingDialo

2021-03-20 18:52:20 364

原创 Chapter7-12_Controllable Chatbot

文章目录1 Chatbot面临的问题2 控制Chatbot的输出2.1 直接Finetune2.2 输入添加控制特征2.3 只有独白3 展望本文为李弘毅老师【Controllable Chatbot】的课程笔记,课程视频youtube地址,点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。文章索引:上篇 - 7-11 Deep Learning for Question Answering (2/2)下篇 - 待更新总目录1 Chatbot面临的问题什

2021-03-13 20:18:23 168

原创 论文阅读 - Beat Tracking by Dynamic Programming

文章目录1 概述2 总体框架3. 计算Onset Strength Envelope4 计算全局的Tempo5 基于动态规划计算beats6 参考文献1 概述有背景音乐的短视频拼接时,如果两个视频的拼接点刚好在背景音乐的某个节拍点上,那么合成的视频看起来,听起来,都会非常舒服,这是短视频合成的一个加分项,这种视频也就是我们经常说的卡点视频。要做卡点视频的前提是找到背景音乐中可以卡的点,beats是其中一种可以卡的点,本文就是用大白话来讲讲论文Beat Tracking by Dynamic Progra

2021-02-26 11:12:22 2146 1

原创 Chapter7-11_Deep Learning for Question Answering (2/2)

文章目录1 Simple Question: Match & Extract2 Complex Question: Reasoning3 Dialogue QA本文为李弘毅老师【Deep Learning for Question Answering (2/2)】的课程笔记,课程视频youtube地址,点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。文章索引:上篇 - 7-10 Deep Learning for Question Answerin

2021-02-21 19:54:01 222

原创 Chapter7-10_Deep Learning for Question Answering (1/2)

文章目录1 什么是Question Answering(QA)2 按答案分类2.1 答案是一个单词2.2 答案是多个选项2.3 答案是source中的一段话2.4 答案是生成的一段话3 按source分类3.1 source是网页3.2 source是图片或者视频3.3 source是语音3.4 source是视频本文为李弘毅老师【Deep Learning for Question Answering (1/2)】的课程笔记,课程视频youtube地址,点这里????(需翻墙)。下文中用到的图片均来自

2021-02-16 14:54:34 218

原创 Chapter7-9_Deep Learning for Dependency Parsing

文章目录1本文为李弘毅老师【Deep Learning for Dependency Parsing】的课程笔记,课程视频youtube地址,点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。文章索引:上篇 - 7-8 Deep Learning for Constituency Parsing下篇 - 待更新总目录1...

2021-02-15 20:04:07 166

原创 Chapter7-8_Deep Learning for Constituency Parsing

文章目录1 什么是Constituency Parsing2 解决方案2.1 Chart-based Approach2.2 Transition-based Approach2.3 Grammer as Foreign Language本文为李弘毅老师【Deep Learning for Constituency Parsing】的课程笔记,课程视频youtube地址,点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。文章索引:上篇 - 7-7 Deep L

2020-12-12 18:36:47 232

原创 论文阅读 - TransNet and TransNet V2

文章目录1 概述1 概述

2020-11-14 16:31:56 4031 2

原创 Chapter7-7_Deep Learning for Coreference Resolution

文章目录1 什么是coreference resolution2 模型架构本文为李弘毅老师【Deep Learning for Coreference Resolution】的课程笔记,课程视频youtube地址,点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。文章索引:上篇 - 7-6 Text Style Transfer下篇 - 待更新总目录1 什么是coreference resolutioncoreference resolution翻译过

2020-11-08 16:23:34 225

原创 论文阅读 - Large-scale weakly-supervised pre-training for video action recognition

文章目录1 概述2 数据的收集方式3 使用的模型4 预训练时的一系列问题4.1 预训练的数据是不是越多越好?4.2 用于预训练的模型是不是越大越好?4.3 预训练数据的标签种类和数量是不是越多越好?4.4 用于预训练的每个video有长有短,时长该如何选取?5 总结1 概述本文是对论文Large-scale weakly-supervised pre-training for video action recognition的阅读笔记。在视频领域,一直没有一个像图像中ImageNet那样的标准,庞大且适

2020-11-06 15:33:29 782

原创 搞懂DEtection TRanformer(DETR)

文章目录1 什么是bipartite matching参考文献本文描述了笔者在阅读了一些文献并实际实验之后,对 End-to-end Object Detection with Transformers(DETR) 的理解。DETR是一个令人非常兴奋的目标检测模型,它在思路上完全不同于现有的state-of-art的那些目标检测模型,让人对目标检测这个任务重新思考。一句话概括一下,DETR就是一个不用nms,不用anchor,流程非常简洁明了,且基于transformer的state-of-art的目标检

2020-10-24 18:22:57 12500 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除