论文阅读 - Non-Local Spatial Propagation Network for Depth Completion 本文是论文Non-Local Spatial Propagation Network for Depth Completion的精读笔记
论文阅读 - Understanding Diffusion Models: A Unified Perspective 本文是对Understanding Diffusion Models: A Unified Perspective的精读,略去了其中的一部分内容,之后会在其他博客单独成篇
论文阅读 - End-to-End Wireframe Parsing 本文是ICCV2019的一篇论文,核心是提出了一种简单的end-to-end的two-stage的检测图像中线段的方法。同时,文章也提出了一种新的评价线段检测效果的指标,这个指标可以惩罚同一个位置有交叠的线段预测,也可以惩罚连接错误的线段。
Rust小技巧 - 把异步函数放进vector当中 有些时候,我们希望将将异步函数放到vector当中,或者说是注册进vector当中,然后在某个地方遍历这个vector来实现对已经注册了的异步函数的调用。
论文阅读 - CRNN An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition论文阅读
搞懂CRF 文章目录1 前言2 Log-linear model3 MEMM3.1 模型概述3.2 label bias问题4 CRF4.1 模型概述4.2 模型训练4.3 模型解码4.4 小结参考资料1 前言条件随机场(conditional random field, CRF)是在建立序列模型时的常用模块,它的本质就是描述观测到的序列xˉ\bar{x}xˉ对应的状态序列yˉ\bar{y}yˉ的概率,记作P(yˉ∣xˉ)P(\bar{y}|\bar{x})P(yˉ∣xˉ)。这里字符上的横线表示这是一个序列,下
论文阅读 - Is Space-Time Attention All You Need for Video Understanding? 这篇论文是在vision transformer的基础上,在时间维度进行了attention,将图像分类拓展到了视频分类。这也是第一个完全抛弃CNN,只用transformer搭建整个网络的视频分类模型。
论文阅读 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 文章目录1 概述2 方法简述2.1 encoder之前2.2 encoder之后3 实验结果参考资料1 概述这篇论文是一篇将tranformer引入到图像领域的里程碑式的文章。因为这是第一次在处理图像时,将所有的卷积模块统统抛弃,只使用attention。并且实验证明了只用attention比使用卷积的网络在图像分类上效果要更好。正片文章的内容并不难理解,前提熟知transformer的原理,不了解或者想要回顾一下的小伙伴,可以看我的另一篇搞懂Transformer。而论文提出的vision tra
小工具:基于颜色的视频和图片切割 文章目录1 前言2 方案简述3 效果1 前言最近做一个短视频相关的项目的时候,发现输入的视频有很多是有黑边的,有些可能是白边或者其他颜色的边。这对下游的模型处理有很大的影响。于是就写了一个自动判断填充边的颜色,并根据该颜色自动切割视频或者图片的小工具。这个真的挺方便的,所以就分享出来。代码可见https://github.com/zjuPeco/color_base_image_crop。2 方案简述所有的颜色都是将rgb值映射到hsv空间后,再映射到事先总结好的一个颜色表当中。每个hsv对应颜色