![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读笔记
文章平均质量分 91
Alice01010101
这个作者很懒,什么都没留下…
展开
-
【无标题】
CAM是在神经网络可解释性研究中,对最后一层全连接层修改为GAP的,之后进行可解释性地定位研究。具体推导过程:计算方法如下图所示。对于一个CNN模型,对其最后一个feature map做全局平均池化(GAP)计算各通道均值,然后通过全连接层等映射到class score,找出argmax,计算最大的那一类的输出相对于最后一个feature map的梯度,再把这个梯度可视化到原图上即可。直观来说,就是看一下网络抽取到的高层特征的哪部分对最终的classifier影响更大。原创 2022-11-28 12:32:14 · 696 阅读 · 1 评论 -
2022-11-5学习记录
任务定义定义一:给出一段帧长为T的视频片段,将它们划分为l小段,并为每一小段分类。定义二:二分类语义分割任务。相关工作2.1 时序动作检测(定位)note:TAD/L和TAS的关系,可以类比目标检测和语义分割的关系。2.2 关键帧检测(Key-Frame Detection)复杂活动分类(Complex Activity Classification)2.3 序列分割任务(Sequence Segment Tasks)note:在时序上出更细粒度的框,不出语义标签;原创 2022-11-05 22:58:52 · 465 阅读 · 0 评论 -
2022-10-27学习记录
Segment-based representation:基于时序分割片段的表示时序片段在模型整个训练框架中,有三种不同的用法。作为anchors,中间proposals和final predictions。原创 2022-10-27 21:54:42 · 194 阅读 · 0 评论 -
2022-10-16学习记录
I3D主要是将2D CNN的网络扩展为3D CNN。为了检测搭建的模型是否正确,作者将2D网络中输入的一帧视频帧重复复制为多帧送入3D网络结构中(a boring video),同时将2D filter的参数也复制粘贴n次,并将3D filter中的每个2D filter的参数w除以n,。这样使单张图片通过2D CNN的输出结果和设计的a boring video通过3D CNN的输出结果大小维度一致,检查它们最后的输出结果是否相同。原创 2022-10-16 21:43:10 · 857 阅读 · 0 评论 -
2022-10-8学习记录
Deformable DETR的整体结构图为:变为多尺度的特征提取,在attention module中增加了reference point和sampling offset两部分。其中主要的改变为下图中的attention模块,变为deformable attention模块,query只对周围部分做attention。原创 2022-10-09 09:13:30 · 779 阅读 · 0 评论 -
2022-9-19周报
在过去的几年中,基于anchor的Siamese算法成为了单目标跟踪的主流。这种设置固有的问题是:算法在训练时无法“看见”重合度较小的anchor,如果在测试时候分类分支将这样的anchor选为目标区域,那回归网络预测结果将非常差。Anchor-based最重要的提供先验,分类的正样本是在物体的中心;Anchor-free方法,物体边缘的点也需要做regression回归,这时候也要回归到物体上面。机器学习4种自动调参方法:网格搜索、随机搜索、贝叶斯优化和Hyperband。原创 2022-09-19 15:56:10 · 736 阅读 · 0 评论 -
阅读论文:SiamFC&ATOM&DiMP
SiamFC开创了将孪生网络结构应用在目标跟踪领域的先河,显著提高了深度学习方法跟踪器的跟踪速度,之后的相关深度学习跟踪器的方法也大多基于此方法进行改进和优化。所以该方法与KCF地位相近,都具有一定的里程碑意义。...原创 2022-08-26 11:47:26 · 573 阅读 · 0 评论 -
阅读目标检测综述论文
单阶段基于anchor的方法,包括SSD及其变体、YOLO及其变体、以及RetinaNet等,它们直接对anchors和GT进行匹配来输出预测结果。而两阶段的方法,在对输入的图像提取特征之后,还需要经过region proposals进一步缩小采样空间。在上图中,两阶段方法的差异主要表现在Anchor/RoI set之后首先利用其他的网络(例如RPN网络等)对object proposals进行提取。...原创 2022-08-18 16:48:44 · 1345 阅读 · 0 评论 -
DINO&PAWS
讲解链接:https://sh-tsang.medium.com/review-dino-emerging-properties-in-self-supervised-vision-transformers-cfddbb4d35491.1 整体框架:1.1 整体结构1.2 损失函数设计原创 2022-07-14 18:50:34 · 355 阅读 · 0 评论 -
YOLOX
YOLOX是以YOLOv3-SPP作为baseline,主要从三个方面进行改进。参考https://zhuanlan.zhihu.com/p/392221567。相比较于非解耦的端到端方式,解耦能带来4.2%AP提升,并加快收敛速度。模型结构: yolov3中,针对coco80类的检测任务,每一个anchor会对应产生hw85维度的预测结果,其中cls(区分是前景背景)占用1个通道,reg(坐标)占用4个通道,obj(预测是80类中的哪一个类)占用80个通道。 而YOLOX首先使用11卷原创 2022-07-07 18:21:43 · 810 阅读 · 1 评论 -
YOLO vs SSD
R-CNN等一系列算法。主要思路是首先通过启发式方法(selective search)或者CNN网络(RPN)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归。特点是准确度高。如YOLO和SSD。主要思路是均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,之后利用CNN提取特征后进行分类与回归。特点是速度快,但是均匀地密集采样的一个缺陷在于正样本(分类目标)和负样本(背景)不均衡,导致模型准确率低(参见Kaiming的Focal Loss)。 SSD的全称为Single Shot原创 2022-06-09 21:46:33 · 5350 阅读 · 0 评论 -
Swin-Transformer学习整理
Swin-Transformer学习整理Swin-Transformer相比于之前的ViT等模型,最大的特点有两点:运用patch-partition和patch-merging,进行多尺度特征提取。ViT复杂度为O(n^2),Swin-Transformer复杂度为O(n)。观看B站up主“跟李沐学AI”下两位老师的视频问答,觉得非常有深度,遂整理下来以便复习。视频地址 https://www.bilibili.com/video/BV13L4y1475U?spm_id_from=333.9翻译 2022-03-03 00:04:08 · 1949 阅读 · 1 评论 -
Chemical-Reaction-Aware Molecule Representation Learning 阅读笔记
Chemical-Reaction-Aware Molecule Representation Learning阅读笔记问题一:使用pysmiles对Smiles格式数据的具体处理过程1. **SMILES格式**2. **SMILES在REACTION中的写法**3. 论文中的实际处理问题二:输入模型时的维度匹配问题问题一:使用pysmiles对Smiles格式数据的具体处理过程1. SMILES格式1.1 在SMILES表达式中,往往会去掉H元素,比如甲烷CH4用SMILES表达式来表达的话就是C原创 2021-12-18 09:20:42 · 348 阅读 · 0 评论