自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lxy的博客

研究生学习记录

  • 博客(3)
  • 收藏
  • 关注

原创 SimpleNet-阅读笔记

在特征空间上,异常的特征与正常的特征不在同一分布上,先用预训练模型学习正常的分布。这样的缺点在于,预训练模型是根据ImageNet数据集训练的,ImageNet中的数据与真实的工业图像之间有很大的差距,导致学习到的正常分布与工业图像的正常分布并不相同。:主要是利用简单的数据增强的方法制作异常部分并随机的粘贴到正常数据上,这样做的缺点是,制作的异常与真实的异常并不相似。:认为异常不应该能被很好的重建出来,问题在于当异常与正常部分是同样的组成模式,那么异常部分还是可能会被重建出来的。

2024-03-15 15:01:11 1089

原创 Stare at What You See: Masked Image Modeling without Reconstruction阅读笔记

​MIM中最近的一些工作,引入了语义丰富的Teacher Model(如CLIP)。通过利用Teacher Model提取的特征,作为Masked Image特征重建的target。在masked regions中的重建,暗示着迫使图像编码器学习图像中的语义相关性。重建的过程会带来大量的计算,增大了预训练的开销。而且强大的teacher model提取出的特征包含了丰富的语义相关性。所以作者提出了叫做MaskAlign。

2024-03-06 19:38:16 809

原创 SVFormer: Semi-supervised Video Transformer for Action Recognition 阅读笔记

​ 以前的SSL方法是采用图像增强如Mixup或者CutMix来加速收敛,但是这种方法只适用于图像数据,这种方法用于视频会。​ 在互联网上,视频逐渐取代了图片和文字,所以有了很多没有标签的数据。给定一个T帧的视频如上图,随机决定是保存全部的帧,或者保存小部分帧。其中H,W是对视频帧进行token化之后的高和宽,T是剪辑长度。这部分的作用是,能够把一帧拉伸到不同的时间长度,这样做是为了给数据引入更多的随机性。​ 之前的时间增强方法,只考虑了时间的缩放或移动,,这个模型优化下面的监督学习loss函数。

2024-03-04 21:12:27 1324 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除