七元权-CSDN博客

原创搞懂Score-based Generative Model

本文是在参考了网上的多个高质量教程之后，对Score-based Generative Model的相关内容进行的一次梳理。大部分内容来自B站UP主VictorYuki的视频，可以认为是学习视频内容时的笔记，参考的视频为【扩散模型 Diffusion Model 3-x】。文中不会涉及过于复杂的公式推导，尽量以结论性的内容为主，让读者对其整体框架有一个清晰了解。在阅读前，建议先阅读我的另一篇博客。

2025-03-24 10:01:38 444

原创论文阅读 - Non-Local Spatial Propagation Network for Depth Completion

本文是论文Non-Local Spatial Propagation Network for Depth Completion的精读笔记

2024-02-15 21:01:13 1998 2

原创论文阅读 - Understanding Diffusion Models: A Unified Perspective

本文是对Understanding Diffusion Models: A Unified Perspective的精读，略去了其中的一部分内容，之后会在其他博客单独成篇

2023-08-16 19:45:44 3657 7

原创论文阅读 - SegFormer

本文是对Segformer论文的解读

2023-06-23 17:41:48 3032 1

原创论文阅读 - Segment Anything

本文是对SegmentAnything这篇论文的解读，适合各种基础的人群

2023-04-19 22:09:04 3794 1

原创论文阅读 - End-to-End Wireframe Parsing

本文是ICCV2019的一篇论文，核心是提出了一种简单的end-to-end的two-stage的检测图像中线段的方法。同时，文章也提出了一种新的评价线段检测效果的指标，这个指标可以惩罚同一个位置有交叠的线段预测，也可以惩罚连接错误的线段。

2023-03-05 15:19:28 920 1

原创深度学习基础-2

本文介绍了深度学习的基础知识，以全连接神经网络为例，介绍了全连接层，激活函数，交叉熵损失，计算图与反向传播，梯度消失与梯度爆炸，权重初始化，Batch Normalization。

2022-11-20 14:39:16 1381 1

原创深度学习基础-1

本文介绍了深度学习的基础知识，以图像分类为例，介绍了图像的表示，线性分类器，损失函数，优化算法以及数据处理。

2022-11-08 21:33:44 1564

原创搞懂图论中的中心性

度中心，特征向量中心性，katz中心性和PageRank的整理

2022-10-30 11:07:52 5145 4

原创 SynthText流程解读 - 不看代码不知道的那些事

本文描述了SynthText中生成虚拟OCR数据的代码流程

2022-08-05 13:28:39 1057

原创 Rust小技巧 - 通过FFI编程运行tensorrt模型

使用rust的FFI编程来调用tensorrt_pro

2022-06-10 16:54:26 1530

原创 tch-rs指南 - Tensor的基本操作

tch-rs中tensor的基本操作说明。

2022-05-10 16:59:15 1899

原创 Rust小技巧 - 把异步函数放进vector当中

有些时候，我们希望将将异步函数放到vector当中，或者说是注册进vector当中，然后在某个地方遍历这个vector来实现对已经注册了的异步函数的调用。

2022-05-09 14:21:47 762

原创 Rust小技巧 - 让函数既可接受String或&str，也可以返回String或&str

rust函数输入不同参数或者输出不同参数的方法。Into和Cow的应用。

2022-05-04 19:22:19 2855

原创论文阅读 - CRNN

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition论文阅读

2022-03-07 18:59:42 5292

原创论文阅读 - Spatial Transformer Networks

spatial transformer的论文阅读

2022-02-26 18:50:32 3525

原创论文阅读 - Video Swin Transformer

video swin transformer解读

2022-02-14 15:41:47 13783 16

原创搞懂CRF

文章目录1 前言2 Log-linear model3 MEMM3.1 模型概述3.2 label bias问题4 CRF4.1 模型概述4.2 模型训练4.3 模型解码4.4 小结参考资料1 前言条件随机场(conditional random field, CRF)是在建立序列模型时的常用模块，它的本质就是描述观测到的序列xˉ\bar{x}xˉ对应的状态序列yˉ\bar{y}yˉ的概率，记作P(yˉ∣xˉ)P(\bar{y}|\bar{x})P(yˉ∣xˉ)。这里字符上的横线表示这是一个序列，下

2022-02-08 17:10:15 3077

原创论文阅读 - Is Space-Time Attention All You Need for Video Understanding?

这篇论文是在vision transformer的基础上，在时间维度进行了attention，将图像分类拓展到了视频分类。这也是第一个完全抛弃CNN，只用transformer搭建整个网络的视频分类模型。

2022-01-31 09:42:10 5764 1

原创论文阅读 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

文章目录1 概述2 方法简述2.1 encoder之前2.2 encoder之后3 实验结果参考资料1 概述这篇论文是一篇将tranformer引入到图像领域的里程碑式的文章。因为这是第一次在处理图像时，将所有的卷积模块统统抛弃，只使用attention。并且实验证明了只用attention比使用卷积的网络在图像分类上效果要更好。正片文章的内容并不难理解，前提熟知transformer的原理，不了解或者想要回顾一下的小伙伴，可以看我的另一篇搞懂Transformer。而论文提出的vision tra

2022-01-29 10:22:20 3630

原创小工具：基于颜色的视频和图片切割

文章目录1 前言2 方案简述3 效果1 前言最近做一个短视频相关的项目的时候，发现输入的视频有很多是有黑边的，有些可能是白边或者其他颜色的边。这对下游的模型处理有很大的影响。于是就写了一个自动判断填充边的颜色，并根据该颜色自动切割视频或者图片的小工具。这个真的挺方便的，所以就分享出来。代码可见https://github.com/zjuPeco/color_base_image_crop。2 方案简述所有的颜色都是将rgb值映射到hsv空间后，再映射到事先总结好的一个颜色表当中。每个hsv对应颜色

2022-01-17 19:11:01 2890 1

原创论文阅读 - AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

autovc论文解读

2021-12-10 16:00:31 3252

原创图像表格实线和虚线检测

图像中的实线和虚线检测

2021-11-12 10:49:45 3907

原创 Yolo系列知识点梳理（Yolov1-v5）

文章目录1 概述2 Yolo系列模型2.1 基石 - Yolov12.1.1 Yolov1的网络结构1 概述Yolo系列的模型是大多数做目标检测的图像算法工程师都在使用的，使用时经常也是先用了看看效果再说，如果效果不错，有时间再回头来研究一下模型，有时甚至就忘了回过头来细究。这篇文章就是一个回头的产物。Yolo的每一个系列都令人惊艳，本文综合了原始论文和网上各家的一些说法，把Yolo每个系列究竟产出了一些什么做一个系统的梳理，也方便我以后的再回头。如果Yolo之后有人继续更新下去，本文也会尽量做到继

2021-10-23 20:00:51 10274

原创论文阅读 - Joint Beat and Downbeat Tracking with Recurrent Neural Networks

文章目录1 概述2 信号预处理3 分类神经网络4 动态贝叶斯网络（HMM）4.1 原始的bar pointer model4.2 原始的bar pointer model的缺点4.3 改进后的模型5 预测参考资料1 概述最近在做音乐卡点相关的项目，需要对音乐的基本特征进行理解，比如beats和downbeats就是最基本的特征。madmom是我找到的一个对beats和downbeats的检测都有实现的第三方库，于是就认真学习了一下，把其中用到的方法和自己的理解记录下来。madmom中的beats和do

2021-09-10 17:56:09 2015 9

原创 speech production model

文章目录1 概述2 source model3 filter model4 小结参考资料1 概述本文的目的是为了厘清在speech production model中source model和filter model所扮演的角色，不涉及具体公式的推导或者模型的建立，只是为了把这两个model在干什么事情说明白。文中用到的图片均来自底部参考资料，如有侵权，必定删除。如下图1-1所示，speech production model把人发声的过程分成了三大块，分别是power，source和filter。

2021-09-04 21:57:30 669

原创搞懂语音去噪

文章目录1 概述2 传统语音去噪2.1 谱减法2.2 滤波法3 深度语音去噪1 概述2 传统语音去噪2.1 谱减法2.2 滤波法3 深度语音去噪

2021-09-03 11:32:51 11781 3

原创搞懂HMM

文章目录1 概述2 符号说明3 Evaluation4 Learning5 Decoding参考资料1 概述本文是B站上机器学习-白板推导系列(十四)-隐马尔可夫模型HMM的学习笔记，UP主讲得实在是太清楚了，赶紧记录下来，以防之后忘记。2 符号说明3 Evaluation4 Learning5 Decoding参考资料[1] 机器学习-白板推导系列(十四)-隐马尔可夫模型HMM......

2021-08-22 12:08:03 1393 1

原创论文阅读 - Group Normalization

文章目录1 概述2 几种normalization的方法2.1 Batch Norm2.2 Layer Norm2.3 Instance Norm2.4 Group Norm3 效果对比参考文献1 概述Group Nomralization的提出是为了解决一张GPU上能容纳的batch_size很小，导致模型训练效果显著变差的问题。随着深度学习的快速发展，我们所使用的模型越来越大了，这也就导致了在训练时，一个batch所占用的显存越来越大了，也i就导致了一张卡上的batch_size会很小，最终导致了模

2021-06-05 18:57:02 854 2

原创论文阅读 - Jukebox: A Generative Model for Music

文章目录1 概述2 什么是VQ-VAE2.1 Auto-encoder(AE)2.2 Variational AutoEncoder(VAE)2.3 Vector-Quantized Variational AutoEncoder(VQ-VAE)2.4 VQ-VAE-23 Music VQ-VAE4 Prior and upsamplers5 Lyrics Conditioning参考文献By learning to produce the data, we can learn the best fea

2021-04-30 16:36:59 4451

原创 Chapter7-13_Dialogue State Tracking (as Question Answering)

文章目录1 什么是Dialogue State Tracking2 数据集3 两个挑战4 经典模型本文为李弘毅老师【Dialogue State Tracking (as Question Answering)】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-12 Controllable Chatbot下篇 - 无总目录1 什么是Dialogue State TrackingDialo

2021-03-20 18:52:20 502

原创 Chapter7-12_Controllable Chatbot

文章目录1 Chatbot面临的问题2 控制Chatbot的输出2.1 直接Finetune2.2 输入添加控制特征2.3 只有独白3 展望本文为李弘毅老师【Controllable Chatbot】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-11 Deep Learning for Question Answering (2/2)下篇 - 待更新总目录1 Chatbot面临的问题什

2021-03-13 20:18:23 261

原创论文阅读 - Beat Tracking by Dynamic Programming

文章目录1 概述2 总体框架3. 计算Onset Strength Envelope4 计算全局的Tempo5 基于动态规划计算beats6 参考文献1 概述有背景音乐的短视频拼接时，如果两个视频的拼接点刚好在背景音乐的某个节拍点上，那么合成的视频看起来，听起来，都会非常舒服，这是短视频合成的一个加分项，这种视频也就是我们经常说的卡点视频。要做卡点视频的前提是找到背景音乐中可以卡的点，beats是其中一种可以卡的点，本文就是用大白话来讲讲论文Beat Tracking by Dynamic Progra

2021-02-26 11:12:22 3017 1

原创 Chapter7-11_Deep Learning for Question Answering (2/2)

文章目录1 Simple Question: Match & Extract2 Complex Question: Reasoning3 Dialogue QA本文为李弘毅老师【Deep Learning for Question Answering (2/2)】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-10 Deep Learning for Question Answerin

2021-02-21 19:54:01 302

原创 Chapter7-10_Deep Learning for Question Answering (1/2)

文章目录1 什么是Question Answering(QA)2 按答案分类2.1 答案是一个单词2.2 答案是多个选项2.3 答案是source中的一段话2.4 答案是生成的一段话3 按source分类3.1 source是网页3.2 source是图片或者视频3.3 source是语音3.4 source是视频本文为李弘毅老师【Deep Learning for Question Answering (1/2)】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自

2021-02-16 14:54:34 311

原创 Chapter7-9_Deep Learning for Dependency Parsing

文章目录1本文为李弘毅老师【Deep Learning for Dependency Parsing】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-8 Deep Learning for Constituency Parsing下篇 - 待更新总目录1...

2021-02-15 20:04:07 271

原创 Chapter7-8_Deep Learning for Constituency Parsing

文章目录1 什么是Constituency Parsing2 解决方案2.1 Chart-based Approach2.2 Transition-based Approach2.3 Grammer as Foreign Language本文为李弘毅老师【Deep Learning for Constituency Parsing】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-7 Deep L

2020-12-12 18:36:47 372

原创论文阅读 - TransNet and TransNet V2

文章目录1 概述1 概述

2020-11-14 16:31:56 6655 2

原创 Chapter7-7_Deep Learning for Coreference Resolution

文章目录1 什么是coreference resolution2 模型架构本文为李弘毅老师【Deep Learning for Coreference Resolution】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 7-6 Text Style Transfer下篇 - 待更新总目录1 什么是coreference resolutioncoreference resolution翻译过

2020-11-08 16:23:34 343

原创论文阅读 - Large-scale weakly-supervised pre-training for video action recognition

文章目录1 概述2 数据的收集方式3 使用的模型4 预训练时的一系列问题4.1 预训练的数据是不是越多越好？4.2 用于预训练的模型是不是越大越好？4.3 预训练数据的标签种类和数量是不是越多越好？4.4 用于预训练的每个video有长有短，时长该如何选取？5 总结1 概述本文是对论文Large-scale weakly-supervised pre-training for video action recognition的阅读笔记。在视频领域，一直没有一个像图像中ImageNet那样的标准，庞大且适

2020-11-06 15:33:29 1031

空空如也

空空如也