论文阅读
文章平均质量分 95
七元权
不会喝酒的程序员不是好的诗人
展开
-
论文阅读 - Non-Local Spatial Propagation Network for Depth Completion
本文是论文Non-Local Spatial Propagation Network for Depth Completion的精读笔记原创 2024-02-15 21:01:13 · 1467 阅读 · 2 评论 -
论文阅读 - Understanding Diffusion Models: A Unified Perspective
本文是对Understanding Diffusion Models: A Unified Perspective的精读,略去了其中的一部分内容,之后会在其他博客单独成篇原创 2023-08-16 19:45:44 · 2708 阅读 · 5 评论 -
论文阅读 - SegFormer
本文是对Segformer论文的解读原创 2023-06-23 17:41:48 · 2171 阅读 · 1 评论 -
论文阅读 - Segment Anything
本文是对SegmentAnything这篇论文的解读,适合各种基础的人群原创 2023-04-19 22:09:04 · 3246 阅读 · 1 评论 -
论文阅读 - End-to-End Wireframe Parsing
本文是ICCV2019的一篇论文,核心是提出了一种简单的end-to-end的two-stage的检测图像中线段的方法。同时,文章也提出了一种新的评价线段检测效果的指标,这个指标可以惩罚同一个位置有交叠的线段预测,也可以惩罚连接错误的线段。原创 2023-03-05 15:19:28 · 667 阅读 · 1 评论 -
论文阅读 - CRNN
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition论文阅读原创 2022-03-07 18:59:42 · 5083 阅读 · 0 评论 -
论文阅读 - Spatial Transformer Networks
spatial transformer的论文阅读原创 2022-02-26 18:50:32 · 3335 阅读 · 0 评论 -
论文阅读 - Video Swin Transformer
video swin transformer解读原创 2022-02-14 15:41:47 · 10518 阅读 · 16 评论 -
论文阅读 - Is Space-Time Attention All You Need for Video Understanding?
这篇论文是在vision transformer的基础上,在时间维度进行了attention,将图像分类拓展到了视频分类。这也是第一个完全抛弃CNN,只用transformer搭建整个网络的视频分类模型。原创 2022-01-31 09:42:10 · 5278 阅读 · 1 评论 -
论文阅读 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文章目录1 概述2 方法简述2.1 encoder之前2.2 encoder之后3 实验结果参考资料1 概述这篇论文是一篇将tranformer引入到图像领域的里程碑式的文章。因为这是第一次在处理图像时,将所有的卷积模块统统抛弃,只使用attention。并且实验证明了只用attention比使用卷积的网络在图像分类上效果要更好。正片文章的内容并不难理解,前提熟知transformer的原理,不了解或者想要回顾一下的小伙伴,可以看我的另一篇搞懂Transformer。而论文提出的vision tra原创 2022-01-29 10:22:20 · 3342 阅读 · 1 评论 -
论文阅读 - AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss
autovc论文解读原创 2021-12-10 16:00:31 · 2997 阅读 · 0 评论 -
论文阅读 - Joint Beat and Downbeat Tracking with Recurrent Neural Networks
文章目录1 概述2 信号预处理3 分类神经网络4 动态贝叶斯网络(HMM)4.1 原始的bar pointer model4.2 原始的bar pointer model的缺点4.3 改进后的模型5 预测参考资料1 概述最近在做音乐卡点相关的项目,需要对音乐的基本特征进行理解,比如beats和downbeats就是最基本的特征。madmom是我找到的一个对beats和downbeats的检测都有实现的第三方库,于是就认真学习了一下,把其中用到的方法和自己的理解记录下来。madmom中的beats和do原创 2021-09-10 17:56:09 · 1742 阅读 · 9 评论 -
论文阅读 - Group Normalization
文章目录1 概述2 几种normalization的方法2.1 Batch Norm2.2 Layer Norm2.3 Instance Norm2.4 Group Norm3 效果对比参考文献1 概述Group Nomralization的提出是为了解决一张GPU上能容纳的batch_size很小,导致模型训练效果显著变差的问题。随着深度学习的快速发展,我们所使用的模型越来越大了,这也就导致了在训练时,一个batch所占用的显存越来越大了,也i就导致了一张卡上的batch_size会很小,最终导致了模原创 2021-06-05 18:57:02 · 683 阅读 · 2 评论 -
论文阅读 - Jukebox: A Generative Model for Music
文章目录1 概述2 什么是VQ-VAE2.1 Auto-encoder(AE)2.2 Variational AutoEncoder(VAE)2.3 Vector-Quantized Variational AutoEncoder(VQ-VAE)2.4 VQ-VAE-23 Music VQ-VAE4 Prior and upsamplers5 Lyrics Conditioning参考文献By learning to produce the data, we can learn the best fea原创 2021-04-30 16:36:59 · 3742 阅读 · 0 评论 -
论文阅读 - Beat Tracking by Dynamic Programming
文章目录1 概述2 总体框架3. 计算Onset Strength Envelope4 计算全局的Tempo5 基于动态规划计算beats6 参考文献1 概述有背景音乐的短视频拼接时,如果两个视频的拼接点刚好在背景音乐的某个节拍点上,那么合成的视频看起来,听起来,都会非常舒服,这是短视频合成的一个加分项,这种视频也就是我们经常说的卡点视频。要做卡点视频的前提是找到背景音乐中可以卡的点,beats是其中一种可以卡的点,本文就是用大白话来讲讲论文Beat Tracking by Dynamic Progra原创 2021-02-26 11:12:22 · 2560 阅读 · 1 评论 -
论文阅读 - TransNet and TransNet V2
文章目录1 概述1 概述原创 2020-11-14 16:31:56 · 5109 阅读 · 2 评论 -
论文阅读 - Large-scale weakly-supervised pre-training for video action recognition
文章目录1 概述2 数据的收集方式3 使用的模型4 预训练时的一系列问题4.1 预训练的数据是不是越多越好?4.2 用于预训练的模型是不是越大越好?4.3 预训练数据的标签种类和数量是不是越多越好?4.4 用于预训练的每个video有长有短,时长该如何选取?5 总结1 概述本文是对论文Large-scale weakly-supervised pre-training for video action recognition的阅读笔记。在视频领域,一直没有一个像图像中ImageNet那样的标准,庞大且适原创 2020-11-06 15:33:29 · 869 阅读 · 0 评论 -
搞懂DEtection TRanformer(DETR)
文章目录1 什么是bipartite matching参考文献本文描述了笔者在阅读了一些文献并实际实验之后,对 End-to-end Object Detection with Transformers(DETR) 的理解。DETR是一个令人非常兴奋的目标检测模型,它在思路上完全不同于现有的state-of-art的那些目标检测模型,让人对目标检测这个任务重新思考。一句话概括一下,DETR就是一个不用nms,不用anchor,流程非常简洁明了,且基于transformer的state-of-art的目标检原创 2020-10-24 18:22:57 · 13542 阅读 · 9 评论