- 博客(3)
- 收藏
- 关注
原创 SimpleNet-阅读笔记
在特征空间上,异常的特征与正常的特征不在同一分布上,先用预训练模型学习正常的分布。这样的缺点在于,预训练模型是根据ImageNet数据集训练的,ImageNet中的数据与真实的工业图像之间有很大的差距,导致学习到的正常分布与工业图像的正常分布并不相同。:主要是利用简单的数据增强的方法制作异常部分并随机的粘贴到正常数据上,这样做的缺点是,制作的异常与真实的异常并不相似。:认为异常不应该能被很好的重建出来,问题在于当异常与正常部分是同样的组成模式,那么异常部分还是可能会被重建出来的。
2024-03-15 15:01:11 1089
原创 Stare at What You See: Masked Image Modeling without Reconstruction阅读笔记
MIM中最近的一些工作,引入了语义丰富的Teacher Model(如CLIP)。通过利用Teacher Model提取的特征,作为Masked Image特征重建的target。在masked regions中的重建,暗示着迫使图像编码器学习图像中的语义相关性。重建的过程会带来大量的计算,增大了预训练的开销。而且强大的teacher model提取出的特征包含了丰富的语义相关性。所以作者提出了叫做MaskAlign。
2024-03-06 19:38:16 809
原创 SVFormer: Semi-supervised Video Transformer for Action Recognition 阅读笔记
以前的SSL方法是采用图像增强如Mixup或者CutMix来加速收敛,但是这种方法只适用于图像数据,这种方法用于视频会。 在互联网上,视频逐渐取代了图片和文字,所以有了很多没有标签的数据。给定一个T帧的视频如上图,随机决定是保存全部的帧,或者保存小部分帧。其中H,W是对视频帧进行token化之后的高和宽,T是剪辑长度。这部分的作用是,能够把一帧拉伸到不同的时间长度,这样做是为了给数据引入更多的随机性。 之前的时间增强方法,只考虑了时间的缩放或移动,,这个模型优化下面的监督学习loss函数。
2024-03-04 21:12:27 1324 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人